Comprensione del Comportamento Umano da Visione in Prima Persona (Egocentrica)

Ragusa, Francesco

The First Person (Egocentric) Vision (FPV) paradigm allows an intelligent system to observe the scene from the point of view of the agent which is equipped with a camera. Wearable cameras allow to collect images and videos from the humans' perspective which can be processed using Computer Vision and Machine Learning to enable an automated analysis of humans' behavior. To study the human behavior from the first person point of view we considered both cultural heritage and industrial domains. Equipping visitors of a cultural site with a wearable device allows to easily collect information about their preferences which can be exploited to improve the fruition of cultural goods with augmented reality. The inferred information can be used both online to assist the visitor and offline to support the manager of the site. Despite the positive impact such technologies can have in cultural heritage, the topic is currently understudied due to the limited number of public datasets suitable to study the considered problems. To address this issue, we proposed two egocentric datasets for visitors' behavior understanding in cultural sites. Together with the datasets, we proposed 5 fundamental tasks related to visitor behavior understanding, which can be addressed using the proposed datasets. Moving from these studies, we built the \textit{VEDI System}, which is the final integrated wearable system developed to assist the visitors of cultural sites. While human-object interactions have been thoroughly investigated in third person vision, the problem has been understudied in egocentric settings and in industrial scenarios. To fill this gap, we present MECCANO, the first dataset of egocentric videos composed of multimodal data to study human-object interactions in industrial-like settings. The multimodality is characterized by the gaze signal, depth maps and RGB videos acquired simultaneously with three different devices. The dataset has been explicitly labeled for the tasks of recognizing and anticipating human-object interactions from an egocentric perspective. We report a benchmark aimed to study egocentric human-object interactions in industrial-like domains which shows that the current state-of-the-art approaches achieve limited performance on this challenging dataset.

Il paradigma della visione in prima persona (egocentrica) permette ad un sistema intelligente di osservare la scena dal punto di vista dell'agente che è equipaggiato con una camera. Le camere indossabili permettono di collezionare immagini e video dalla prospettiva dell'utente che possono essere processati utilizzando algoritmi di Computer Vision e Machine Learning per abilitare un'analisi automatica del comportamento dell'utente. Per studiare il comportamento umano da visione in prima persona abbiamo considerato sia il dominio dei beni culturali e sia il dominio industriale. Equipaggiare i visitatori di un sito culturale con un dispositivo indossabile permette di collezionare facilmente informazioni relative alle loro preferenze che possono essere sfruttate per migliorare la fruizione dei beni culturali attraverso la realtà aumentata. Le informazioni ottenute possono essere utilizzate sia per assistere il visitatore e sia per supportare il manager del sito culturale. Nonostante l’impatto positivo che queste tecnologie possono avere nel dominio dei beni culturali, il tema è sotto studiato a causa del numero limitato di dataset pubblici adatti allo studio dei problemi considerati. Per risolvere questo problema, abbiamo proposto due dataset egocentrici per la comprensione del comportamento dei visitatori nei siti culturali. Insieme ai dataset, abbiamo proposto 5 task fondamentali relativi alla comprensione del comportamento del visitatore, che possono essere risolti utilizzando i dataset proposti. Inspirati da questi studi, abbiamo costruito il sistema VEDI che è un sistema integrato indossabile sviluppato per assistere i visitatori nei siti culturali. Mentre le interazioni uomo-oggetto sono state studiate a fondo dalla prospettiva della visione in terza persona, il problema è sotto studiato considerando la visione egocentrica e il dominio industriale. Per spingere la ricerca nello studio di tale problema dal punto di vista della visione in prima persona, abbiamo proposto MECCANO, il primo dataset di video egocentrici composto da dati multimodali per lo studio delle interazioni uomo-oggetto nel dominio industriale. La multi modalità è caratterizzata dal segnale del gaze, le mappe di profondità e i video RGB acquisiti con tre diversi dispositivi. Il dataset è stato esplicitamente etichettato per i task di riconoscimento e anticipazione delle interazioni uomo-oggetto dalla prospettiva egocentrica. Abbiamo riportato un benchmark con l’obiettivo di studiare tali interazioni nel dominio industriale che mostra come gli approcci presenti nello stato dell’arte raggiungono performance limitate su questo dataset.

Comprensione del Comportamento Umano da Visione in Prima Persona (Egocentrica) / Ragusa, Francesco. - (2021 Oct 14).