"Where am I?" This is one of the more investigated questions in literature of which we can easily give an answer in outdoor context thanks to the widespread of smartphone provided of GPS connectivity. But what can we do if we are in indoor context? Is it possible to localize yourself taking a picture with you smartphone? Methods for Image-Based Localization (IBL) in literature try to give this answer. These methods, that often used CNNs to obtain this information, require the collection of huge amount of data composed by images, or videos, labeled for training purpose. If GPS information are not available as in the case of indoor environment, such methods requires a significant effort by involving the use of dedicated sensors or the employment of structure from motion techniques to obtain labeled data. To overcome these difficulties of acquiring a dataset suitable to train models to study IBL, we proposed dedicated tools to generate simulated data in egocentric point of view starting from 3D models of real indoor environments. The generated data are automatically associated to the 3D camera pose information to be exploited during training, hence avoiding the need to perform ``manual" labeling. To augment the experience of visitors during the exploration of the cultural sites and to assist its management we addressed two fundamental tasks: localization of visitors and recognition of the observed artworks. We investigate how unsupervised domain adaptation techniques can be used to train localization models on labeled virtual data and unlabeled real data, and deploy them to work with real images. To perform this study, we propose a dataset of real and virtual images acquired in a cultural site labeled for room-based localization and 3 Degrees of Freedom camera pose estimation. We hence compare two approaches to unsupervised domain adaptation, namely mid-level representations and image-to-image translation.

"Dove mi trovo?" Questa è una delle domande più indagate in letteratura a cui possiamo facilmente dare una risposta in contesto outdoor grazie alla diffusione di smartphone dotati di connettività GPS. Ma cosa possiamo fare se siamo in un contesto indoor? È possibile localizzarsi scattando una foto con il proprio smartphone? I metodi per la localizzazione basata su immagini (IBL) in letteratura cercano di dare questa risposta. Questi metodi, che spesso utilizzavano le CNN per ottenere queste informazioni, richiedono la raccolta di enormi quantità di dati composti da immagini o video, etichettati a scopo di formazione. Se le informazioni GPS non sono disponibili come nel caso dell'ambiente interno, tali metodi richiedono uno sforzo significativo coinvolgendo l'uso di sensori dedicati o l'impiego di tecniche di struttura da movimento per ottenere dati etichettati. Per ovviare a queste difficoltà di acquisizione di un dataset adatto per addestrare modelli allo studio dell'IBL, abbiamo proposto strumenti dedicati per generare dati simulati in un punto di vista egocentrico a partire da modelli 3D di ambienti interni reali. I dati generati vengono automaticamente associati alle informazioni di posa della telecamera 3D da sfruttare durante l'allenamento, evitando così la necessità di eseguire l'etichettatura "manuale". Per aumentare l'esperienza dei visitatori durante l'esplorazione dei siti culturali e per assistere la sua gestione abbiamo affrontato due compiti fondamentali: la localizzazione dei visitatori e il riconoscimento delle opere d'arte osservate. Indaghiamo in che modo è possibile utilizzare tecniche di adattamento del dominio senza supervisione per addestrare modelli di localizzazione su dati virtuali etichettati e dati reali senza etichetta e distribuirli per lavorare con immagini reali. Per eseguire questo studio, proponiamo un set di dati di immagini reali e virtuali acquisite in un sito culturale etichettato per la localizzazione basata sulla stanza e la stima della posa della telecamera a 3 gradi di libertà. Confrontiamo quindi due approcci all'adattamento del dominio non supervisionato, vale a dire rappresentazioni di medio livello e traduzione da immagine a immagine.

Localizzazione Basata su Immagini per Ambienti Interni e Tecniche di Adattamento di Dominio da Dati Virtuali a Dati Reali / Orlando, SANTI ANDREA. - (2021 Feb 02).

Localizzazione Basata su Immagini per Ambienti Interni e Tecniche di Adattamento di Dominio da Dati Virtuali a Dati Reali

ORLANDO, SANTI ANDREA
2021-02-02

Abstract

"Where am I?" This is one of the more investigated questions in literature of which we can easily give an answer in outdoor context thanks to the widespread of smartphone provided of GPS connectivity. But what can we do if we are in indoor context? Is it possible to localize yourself taking a picture with you smartphone? Methods for Image-Based Localization (IBL) in literature try to give this answer. These methods, that often used CNNs to obtain this information, require the collection of huge amount of data composed by images, or videos, labeled for training purpose. If GPS information are not available as in the case of indoor environment, such methods requires a significant effort by involving the use of dedicated sensors or the employment of structure from motion techniques to obtain labeled data. To overcome these difficulties of acquiring a dataset suitable to train models to study IBL, we proposed dedicated tools to generate simulated data in egocentric point of view starting from 3D models of real indoor environments. The generated data are automatically associated to the 3D camera pose information to be exploited during training, hence avoiding the need to perform ``manual" labeling. To augment the experience of visitors during the exploration of the cultural sites and to assist its management we addressed two fundamental tasks: localization of visitors and recognition of the observed artworks. We investigate how unsupervised domain adaptation techniques can be used to train localization models on labeled virtual data and unlabeled real data, and deploy them to work with real images. To perform this study, we propose a dataset of real and virtual images acquired in a cultural site labeled for room-based localization and 3 Degrees of Freedom camera pose estimation. We hence compare two approaches to unsupervised domain adaptation, namely mid-level representations and image-to-image translation.
2-feb-2021
"Dove mi trovo?" Questa è una delle domande più indagate in letteratura a cui possiamo facilmente dare una risposta in contesto outdoor grazie alla diffusione di smartphone dotati di connettività GPS. Ma cosa possiamo fare se siamo in un contesto indoor? È possibile localizzarsi scattando una foto con il proprio smartphone? I metodi per la localizzazione basata su immagini (IBL) in letteratura cercano di dare questa risposta. Questi metodi, che spesso utilizzavano le CNN per ottenere queste informazioni, richiedono la raccolta di enormi quantità di dati composti da immagini o video, etichettati a scopo di formazione. Se le informazioni GPS non sono disponibili come nel caso dell'ambiente interno, tali metodi richiedono uno sforzo significativo coinvolgendo l'uso di sensori dedicati o l'impiego di tecniche di struttura da movimento per ottenere dati etichettati. Per ovviare a queste difficoltà di acquisizione di un dataset adatto per addestrare modelli allo studio dell'IBL, abbiamo proposto strumenti dedicati per generare dati simulati in un punto di vista egocentrico a partire da modelli 3D di ambienti interni reali. I dati generati vengono automaticamente associati alle informazioni di posa della telecamera 3D da sfruttare durante l'allenamento, evitando così la necessità di eseguire l'etichettatura "manuale". Per aumentare l'esperienza dei visitatori durante l'esplorazione dei siti culturali e per assistere la sua gestione abbiamo affrontato due compiti fondamentali: la localizzazione dei visitatori e il riconoscimento delle opere d'arte osservate. Indaghiamo in che modo è possibile utilizzare tecniche di adattamento del dominio senza supervisione per addestrare modelli di localizzazione su dati virtuali etichettati e dati reali senza etichetta e distribuirli per lavorare con immagini reali. Per eseguire questo studio, proponiamo un set di dati di immagini reali e virtuali acquisite in un sito culturale etichettato per la localizzazione basata sulla stanza e la stima della posa della telecamera a 3 gradi di libertà. Confrontiamo quindi due approcci all'adattamento del dominio non supervisionato, vale a dire rappresentazioni di medio livello e traduzione da immagine a immagine.
Localizzazione Basata su Immagini per Ambienti Interni e Tecniche di Adattamento di Dominio da Dati Virtuali a Dati Reali / Orlando, SANTI ANDREA. - (2021 Feb 02).
File in questo prodotto:
File Dimensione Formato  
Tesi di dottorato - ORLANDO SANTI ANDREA 20210127220025.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: PUBBLICO - Pubblico con Copyright
Dimensione 4.67 MB
Formato Adobe PDF
4.67 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.11769/581553
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact