In this thesis we address the problem of learning visual navigation policies for real indoor environments using Reinforcement Learning (RL). RL is an artificial intelligence technique used to find optimal solutions for sequential decision-making problems, modelled as Markov decision processes (MDPs). An autonomous agent acts in the environment to locate rewards, aiming at learning a behavior that ensures the largest cumulative reward possible. Recently, Deep Learning (DL) models have been successfully used in conjunction with RL, giving rise to Deep Reinforcement Learning (DRL) methods, to solve complex optimization problems, as in the case of 2D and 3D video games, and later to train effective navigation policies in realistic virtual 3D environments. Despite the relevant results achieved by DRL-based approaches, they are limited by the need of simulators to train navigation models, which leverage virtual environments with limited photorealism and physical dynamics. This translates in navigation policies that can not be effectively transferred in the real world, due to distributional shifts. After having investigated opportunities and limitations of DRL approaches for visual navigation, to overcome the aforementioned limitation, we propose a framework built on top of the Habitat simulator to train and evaluate navigation policies on realistic navigation episodes. In our approaches we follow two policy adaptation solutions. The first consists in training the navigation model on synthetic observations and fine-tune it on real images. The second leverages a set of domain-invariant visual representations containing relevant properties of the environment, properly combined using DL models. In both approaches the framework can provide the estimation of real-world performances without running physical navigation episodes. The code of the proposed framework, the datasets, the fusion models and the model's pretrained weights have been publicly released to foster the research of visual navigation models that can be deployed in the real-world.

In questa tesi viene affrontato il problema dell'apprendimento di politiche di navigazione per spazi al chiuso a partire da immagini, utilizzando la tecnica di apprendimento per rinforzo (Reinforcement Learning, RL). Il RL è una tecnica di intelligenza artificiale utilizzata per trovare soluzioni ottimali a problemi decisionali di natura sequenziale, che vengono descritti sotto forma di processi decisionali di Markov (Markov Decision Process, MDP). Seguendo questo approccio, un agente autonomo si muove nell'ambiente alla ricerca di ricompense, con l'obiettivo di apprendere un comportamento che permetta di ottenere la più grande ricompensa cumulativa possibile. Recentemente, i modelli di apprendimento profondo (Deep Learning, DL) sono stati utilizzati con successo in combinazione con le tecniche di RL, dando origine a metodi di Deep Reinforcement Learning (DRL), per risolvere complessi problemi di ottimizzazione, come nel caso di sequenze di azioni da eseguire all’interno di videogiochi 2D e 3D, e successivamente per apprendere politiche di navigazione ottimali in ambienti 3D virtuali realistici. Nonostante gli importanti risultati raggiunti dagli approcci basati su DRL, essi sono limitati principalmente dalla necessità di raccogliere esperienza in ambienti simulati, che sono caratterizzati da un foto-realismo parziale e da dinamiche fisiche limitate. Questo si traduce in politiche di navigazione che non possono essere direttamente applicate al mondo reale, a causa del disallineamento tra le distribuzioni di dati virtuali e reali. Dopo aver studiato le opportunità e i limiti degli approcci di DRL per la navigazione visiva, per superare la suddetta limitazione, proponiamo un framework basato sul simulatore Habitat per addestrare e valutare politiche di navigazione su traiettorie realistiche. Abbiamo seguito due soluzioni di adattamento delle politiche di navigazione (Domain Adaptation). Il primo consiste nell'addestrare il modello di navigazione su immagini sintetiche e successivamente adattarlo su immagini reali. Il secondo sfrutta un insieme di rappresentazioni visive invarianti al dominio virtuale-reale, contenenti proprietà rilevanti dell'ambiente, opportunamente combinate utilizzando dei modelli di DL. In entrambi gli approcci, il framework è anche in grado di fornire una stima delle prestazioni che è possibile ottenere nel mondo reale, senza la necessità di eseguire fisicamente gli episodi di navigazione. Il codice sorgente del framework proposto, le immagini sintetiche e reali, i modelli di fusione delle rappresentazioni visive e i modelli di navigazione pre-addestrati sono stati rilasciati pubblicamente per favorire la ricerca su sistemi di navigazione visiva che possano essere applicati con successo nel mondo reale.

Sistemi di Navigazione Visiva Senza Mappa per il Mondo Reale Tramite Apprendimento per Rinforzo / Rosano, Marco. - (2023 Mar 13).

Sistemi di Navigazione Visiva Senza Mappa per il Mondo Reale Tramite Apprendimento per Rinforzo

ROSANO, MARCO
2023-03-13

Abstract

In this thesis we address the problem of learning visual navigation policies for real indoor environments using Reinforcement Learning (RL). RL is an artificial intelligence technique used to find optimal solutions for sequential decision-making problems, modelled as Markov decision processes (MDPs). An autonomous agent acts in the environment to locate rewards, aiming at learning a behavior that ensures the largest cumulative reward possible. Recently, Deep Learning (DL) models have been successfully used in conjunction with RL, giving rise to Deep Reinforcement Learning (DRL) methods, to solve complex optimization problems, as in the case of 2D and 3D video games, and later to train effective navigation policies in realistic virtual 3D environments. Despite the relevant results achieved by DRL-based approaches, they are limited by the need of simulators to train navigation models, which leverage virtual environments with limited photorealism and physical dynamics. This translates in navigation policies that can not be effectively transferred in the real world, due to distributional shifts. After having investigated opportunities and limitations of DRL approaches for visual navigation, to overcome the aforementioned limitation, we propose a framework built on top of the Habitat simulator to train and evaluate navigation policies on realistic navigation episodes. In our approaches we follow two policy adaptation solutions. The first consists in training the navigation model on synthetic observations and fine-tune it on real images. The second leverages a set of domain-invariant visual representations containing relevant properties of the environment, properly combined using DL models. In both approaches the framework can provide the estimation of real-world performances without running physical navigation episodes. The code of the proposed framework, the datasets, the fusion models and the model's pretrained weights have been publicly released to foster the research of visual navigation models that can be deployed in the real-world.
13-mar-2023
In questa tesi viene affrontato il problema dell'apprendimento di politiche di navigazione per spazi al chiuso a partire da immagini, utilizzando la tecnica di apprendimento per rinforzo (Reinforcement Learning, RL). Il RL è una tecnica di intelligenza artificiale utilizzata per trovare soluzioni ottimali a problemi decisionali di natura sequenziale, che vengono descritti sotto forma di processi decisionali di Markov (Markov Decision Process, MDP). Seguendo questo approccio, un agente autonomo si muove nell'ambiente alla ricerca di ricompense, con l'obiettivo di apprendere un comportamento che permetta di ottenere la più grande ricompensa cumulativa possibile. Recentemente, i modelli di apprendimento profondo (Deep Learning, DL) sono stati utilizzati con successo in combinazione con le tecniche di RL, dando origine a metodi di Deep Reinforcement Learning (DRL), per risolvere complessi problemi di ottimizzazione, come nel caso di sequenze di azioni da eseguire all’interno di videogiochi 2D e 3D, e successivamente per apprendere politiche di navigazione ottimali in ambienti 3D virtuali realistici. Nonostante gli importanti risultati raggiunti dagli approcci basati su DRL, essi sono limitati principalmente dalla necessità di raccogliere esperienza in ambienti simulati, che sono caratterizzati da un foto-realismo parziale e da dinamiche fisiche limitate. Questo si traduce in politiche di navigazione che non possono essere direttamente applicate al mondo reale, a causa del disallineamento tra le distribuzioni di dati virtuali e reali. Dopo aver studiato le opportunità e i limiti degli approcci di DRL per la navigazione visiva, per superare la suddetta limitazione, proponiamo un framework basato sul simulatore Habitat per addestrare e valutare politiche di navigazione su traiettorie realistiche. Abbiamo seguito due soluzioni di adattamento delle politiche di navigazione (Domain Adaptation). Il primo consiste nell'addestrare il modello di navigazione su immagini sintetiche e successivamente adattarlo su immagini reali. Il secondo sfrutta un insieme di rappresentazioni visive invarianti al dominio virtuale-reale, contenenti proprietà rilevanti dell'ambiente, opportunamente combinate utilizzando dei modelli di DL. In entrambi gli approcci, il framework è anche in grado di fornire una stima delle prestazioni che è possibile ottenere nel mondo reale, senza la necessità di eseguire fisicamente gli episodi di navigazione. Il codice sorgente del framework proposto, le immagini sintetiche e reali, i modelli di fusione delle rappresentazioni visive e i modelli di navigazione pre-addestrati sono stati rilasciati pubblicamente per favorire la ricerca su sistemi di navigazione visiva che possano essere applicati con successo nel mondo reale.
Visual Navigation, Real World Navigation, Mapless Navigation, Indoor Visual Navigation, Reinforcement Learning, Domain Adaptation, Simulation to Real Domain Adaptation, Visual Representations Fusion, Mid-level Representations Fusion, Multimodal Navigation
Navigazione Visiva, Navigazione nel Mondo Reale, Navigazione Senza Mappa, Navigazione in Spazi al Chiuso, Apprendimento per Rinforzo, Adattamento del Dominio, Adattamento del Dominio dal Simulato al Reale, Combinazione di Rappresentazioni Visuali, Combinazione di Rappresentazioni di Medio Livello, Navigazione Multimodale
Sistemi di Navigazione Visiva Senza Mappa per il Mondo Reale Tramite Apprendimento per Rinforzo / Rosano, Marco. - (2023 Mar 13).
File in questo prodotto:
File Dimensione Formato  
Doctoral_Thesis_Rosano_final.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: PUBBLICO - Pubblico con Copyright
Dimensione 9.79 MB
Formato Adobe PDF
9.79 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.11769/582157
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact