Assisting Humans in Complex Environments with Robots  [Assistere gli esseri umani in ambienti complessi con i robot]

Yaar, Asfand

Despite significant advancements in the field of vision, language and robotics, integrating these capabilities to create an autonomous robot assistant remains a challenge. In this work, we present research aimed at enabling an assistive robotic system to aid humans in daily activities while at home. The system should understand human needs starting from natural language, elaborate an action plan and execute it, without having prior knowledge of the environment’s layout or privileged information on the location of objects. Initially, we focused on human-directed navigation, an important ability for such a system, and then we integrated this with language processing. The investigated approach uses a language model and a library of visuomotor skills to generate objectives and accurately execute tasks as requested by the human. The system relies solely on onboard visual and proprioceptive sensing, eliminating the need for pre-built maps or precise object locations and facilitating real-world deployment in a variety of environments. Experimental validation conducted in 11 realistic home environments featuring simulated human agents using the Habitat simulator indicated that the system can achieve promising results when using ground-truth image segmentation, yet exhibits inferior performance in scenarios involving imperfect visual perception. The results support the validity of the proposed pipeline and highlight the critical components of the system that should be improved to increase its overall success rate and reliability.

Nonostante i progressi significativi nel campo della visione, del linguaggio e della robotica, l’integrazione di queste capacità per creare un assistente robot autonomo rimane una sfida. In questo lavoro presentiamo una ricerca volta a consentire a un sistema robotico assistivo di aiutare gli esseri umani nelle attività quotidiane mentre sono a casa. Il sistema dovrebbe comprendere i bisogni umani a partire dal linguaggio naturale, elaborare un piano d’azione ed eseguirlo, senza avere una conoscenza preliminare della disposizione dell’ambiente o informazioni privilegiate sulla posizione degli oggetti. Inizialmente, ci siamo concentrati sulla navigazione guidata dall’uomo, un’abilità importante per un sistema di questo tipo, e poi l’abbiamo integrata con l’elaborazione del linguaggio. L'approccio studiato utilizza un modello linguistico e una libreria di abilità visuomotorie per generare obiettivi ed eseguire accuratamente i compiti richiesti dall'essere umano. Il sistema si basa esclusivamente sul rilevamento visivo e propriocettivo integrato, eliminando la necessità di mappe predefinite o posizioni precise degli oggetti e facilitando l'implementazione nel mondo reale in una varietà di ambienti. La validazione sperimentale condotta in 11 ambienti domestici realistici con agenti umani simulati utilizzando il simulatore Habitat ha indicato che il sistema può ottenere risultati promettenti quando si utilizza la segmentazione di immagini reali, ma mostra prestazioni inferiori in scenari che coinvolgono una percezione visiva imperfetta. I risultati supportano la validità della pipeline proposta ed evidenziano i componenti critici del sistema che dovrebbero essere migliorati per aumentarne il tasso di successo e l'affidabilità complessivi.

Assisting Humans in Complex Environments with Robots [Assistere gli esseri umani in ambienti complessi con i robot] / Yaar, Asfand. - (2025 Feb 10).

Assisting Humans in Complex Environments with Robots [Assistere gli esseri umani in ambienti complessi con i robot]

YAAR, ASFAND

2025-02-10

Abstract

Despite significant advancements in the field of vision, language and robotics, integrating these capabilities to create an autonomous robot assistant remains a challenge. In this work, we present research aimed at enabling an assistive robotic system to aid humans in daily activities while at home. The system should understand human needs starting from natural language, elaborate an action plan and execute it, without having prior knowledge of the environment’s layout or privileged information on the location of objects. Initially, we focused on human-directed navigation, an important ability for such a system, and then we integrated this with language processing. The investigated approach uses a language model and a library of visuomotor skills to generate objectives and accurately execute tasks as requested by the human. The system relies solely on onboard visual and proprioceptive sensing, eliminating the need for pre-built maps or precise object locations and facilitating real-world deployment in a variety of environments. Experimental validation conducted in 11 realistic home environments featuring simulated human agents using the Habitat simulator indicated that the system can achieve promising results when using ground-truth image segmentation, yet exhibits inferior performance in scenarios involving imperfect visual perception. The results support the validity of the proposed pipeline and highlight the critical components of the system that should be improved to increase its overall success rate and reliability.

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno di discussione
	
				10-feb-2025
			
	Abstract
	
				Nonostante i progressi significativi nel campo della visione, del linguaggio e della robotica, l’integrazione di queste capacità per creare un assistente robot autonomo rimane una sfida. In questo lavoro presentiamo una ricerca volta a consentire a un sistema robotico assistivo di aiutare gli esseri umani nelle attività quotidiane mentre sono a casa. Il sistema dovrebbe comprendere i bisogni umani a partire dal linguaggio naturale, elaborare un piano d’azione ed eseguirlo, senza avere una conoscenza preliminare della disposizione dell’ambiente o informazioni privilegiate sulla posizione degli oggetti. Inizialmente, ci siamo concentrati sulla navigazione guidata dall’uomo, un’abilità importante per un sistema di questo tipo, e poi l’abbiamo integrata con l’elaborazione del linguaggio. L'approccio studiato utilizza un modello linguistico e una libreria di abilità visuomotorie per generare obiettivi ed eseguire accuratamente i compiti richiesti dall'essere umano. Il sistema si basa esclusivamente sul rilevamento visivo e propriocettivo integrato, eliminando la necessità di mappe predefinite o posizioni precise degli oggetti e facilitando l'implementazione nel mondo reale in una varietà di ambienti. La validazione sperimentale condotta in 11 ambienti domestici realistici con agenti umani simulati utilizzando il simulatore Habitat ha indicato che il sistema può ottenere risultati promettenti quando si utilizza la segmentazione di immagini reali, ma mostra prestazioni inferiori in scenari che coinvolgono una percezione visiva imperfetta. I risultati supportano la validità della pipeline proposta ed evidenziano i componenti critici del sistema che dovrebbero essere migliorati per aumentarne il tasso di successo e l'affidabilità complessivi.
			
	Parole chiave
	
				human-robot interaction; assistive tasks; task planning; navigation and manipulation; Natural language processing; reinforcement learning
			
	Parole chiave
	
				interazione uomo-robot; compiti assistivi; pianificazione delle attività; navigazione e manipolazione; Elaborazione del linguaggio naturale; apprendimento per rinforzo
			
	Citazione
	
				Assisting Humans in Complex Environments with Robots  [Assistere gli esseri umani in ambienti complessi con i robot] / Yaar, Asfand. - (2025 Feb 10).
			
	Appare nelle tipologie:
	
				8.1 Doctoral Thesis

File in questo prodotto:

File	Dimensione	Formato
AsfandYaar_PhD_Thesis_UNICT.pdf accesso aperto Tipologia: Tesi di dottorato Licenza: PUBBLICO - Pubblico con Copyright Dimensione 21.7 MB Formato Adobe PDF Visualizza/Apri	21.7 MB	Adobe PDF	Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.11769/685255

Citazioni

ND

ND

ND

Assisting Humans in Complex Environments with Robots [Assistere gli esseri umani in ambienti complessi con i robot]

YAAR, ASFAND

2025-02-10

Abstract

Scheda breve Scheda completa Scheda completa (DC)

Informazioni

Citazioni

social impact

Conferma cancellazione

Scheda breve

Scheda completa

Scheda completa (DC)