Despite significant advancements in the field of vision, language and robotics, integrating these capabilities to create an autonomous robot assistant remains a challenge. In this work, we present research aimed at enabling an assistive robotic system to aid humans in daily activities while at home. The system should understand human needs starting from natural language, elaborate an action plan and execute it, without having prior knowledge of the environment’s layout or privileged information on the location of objects. Initially, we focused on human-directed navigation, an important ability for such a system, and then we integrated this with language processing. The investigated approach uses a language model and a library of visuomotor skills to generate objectives and accurately execute tasks as requested by the human. The system relies solely on onboard visual and proprioceptive sensing, eliminating the need for pre-built maps or precise object locations and facilitating real-world deployment in a variety of environments. Experimental validation conducted in 11 realistic home environments featuring simulated human agents using the Habitat simulator indicated that the system can achieve promising results when using ground-truth image segmentation, yet exhibits inferior performance in scenarios involving imperfect visual perception. The results support the validity of the proposed pipeline and highlight the critical components of the system that should be improved to increase its overall success rate and reliability.
Nonostante i progressi significativi nel campo della visione, del linguaggio e della robotica, l’integrazione di queste capacità per creare un assistente robot autonomo rimane una sfida. In questo lavoro presentiamo una ricerca volta a consentire a un sistema robotico assistivo di aiutare gli esseri umani nelle attività quotidiane mentre sono a casa. Il sistema dovrebbe comprendere i bisogni umani a partire dal linguaggio naturale, elaborare un piano d’azione ed eseguirlo, senza avere una conoscenza preliminare della disposizione dell’ambiente o informazioni privilegiate sulla posizione degli oggetti. Inizialmente, ci siamo concentrati sulla navigazione guidata dall’uomo, un’abilità importante per un sistema di questo tipo, e poi l’abbiamo integrata con l’elaborazione del linguaggio. L'approccio studiato utilizza un modello linguistico e una libreria di abilità visuomotorie per generare obiettivi ed eseguire accuratamente i compiti richiesti dall'essere umano. Il sistema si basa esclusivamente sul rilevamento visivo e propriocettivo integrato, eliminando la necessità di mappe predefinite o posizioni precise degli oggetti e facilitando l'implementazione nel mondo reale in una varietà di ambienti. La validazione sperimentale condotta in 11 ambienti domestici realistici con agenti umani simulati utilizzando il simulatore Habitat ha indicato che il sistema può ottenere risultati promettenti quando si utilizza la segmentazione di immagini reali, ma mostra prestazioni inferiori in scenari che coinvolgono una percezione visiva imperfetta. I risultati supportano la validità della pipeline proposta ed evidenziano i componenti critici del sistema che dovrebbero essere migliorati per aumentarne il tasso di successo e l'affidabilità complessivi.
Assisting Humans in Complex Environments with Robots [Assistere gli esseri umani in ambienti complessi con i robot] / Yaar, Asfand. - (2025 Feb 10).
Assisting Humans in Complex Environments with Robots [Assistere gli esseri umani in ambienti complessi con i robot]
YAAR, ASFAND
2025-02-10
Abstract
Despite significant advancements in the field of vision, language and robotics, integrating these capabilities to create an autonomous robot assistant remains a challenge. In this work, we present research aimed at enabling an assistive robotic system to aid humans in daily activities while at home. The system should understand human needs starting from natural language, elaborate an action plan and execute it, without having prior knowledge of the environment’s layout or privileged information on the location of objects. Initially, we focused on human-directed navigation, an important ability for such a system, and then we integrated this with language processing. The investigated approach uses a language model and a library of visuomotor skills to generate objectives and accurately execute tasks as requested by the human. The system relies solely on onboard visual and proprioceptive sensing, eliminating the need for pre-built maps or precise object locations and facilitating real-world deployment in a variety of environments. Experimental validation conducted in 11 realistic home environments featuring simulated human agents using the Habitat simulator indicated that the system can achieve promising results when using ground-truth image segmentation, yet exhibits inferior performance in scenarios involving imperfect visual perception. The results support the validity of the proposed pipeline and highlight the critical components of the system that should be improved to increase its overall success rate and reliability.File | Dimensione | Formato | |
---|---|---|---|
AsfandYaar_PhD_Thesis_UNICT.pdf
accesso aperto
Tipologia:
Tesi di dottorato
Licenza:
PUBBLICO - Pubblico con Copyright
Dimensione
21.7 MB
Formato
Adobe PDF
|
21.7 MB | Adobe PDF | Visualizza/Apri |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.