Understanding human behaviour through egocentric image and video analysis is crucial in computer vision, spanning domains like healthcare, industrial behaviour analysis, and human-computer interaction. Wearable devices play a pivotal role, enabling data collection while minimally limiting user activities. Analyzing this data enables the development of intelligent systems capable of recognizing HandObject Interactions, aiding humans in various tasks. These interactions include touching, holding, manipulating, or moving objects. In this thesis, we formalized Hand-Object Interactions as triplets in the form of (). This conceptual definition involves the recognition of hands and interacted objects in images and the prediction of a contact state label for each hand among ”not in contact” and ”in contact”. Understanding hand-object interactions in industrial domains can guide workers in assembly tasks, thereby enhancing efficiency and safety. However, the effectiveness of such systems depends on large real-world labelled data, a complex and costly process. Employing automatically annotated synthetic data is a promising alternative, offering a faster and cheaper data generation and labelling method. However, integrating synthetic data poses new challenges such as data fidelity and domain gap. This thesis demonstrates the potential of using automatically labelled synthetic data to enhance hand-object interaction detection, reducing reliance on annotated real-world data. To adequately study this problem, the research focused on developing novel simulators for generating hand-object interaction data and methodologies to leverage this data effectively. Additionally, we collected and publicly released benchmark datasets (ENIGMA-51, EgoISM-HOI, and HOI-Synth) to support our analysis. We believe these datasets will be valuable for the research community, facilitating future investigations in this domain.

Comprendere il comportamento umano attraverso l'analisi di immagini e video egocentrici è cruciale nella computer vision, estendendosi a settori quali la sanità, l'analisi comportamentale industriale e l'interazione uomo-computer. I dispositivi indossabili svolgono un ruolo chiave in questo contesto, consentendo la raccolta dati con un impatto minimo sulle attività dell'utente. Analizzando tali dati, è possibile sviluppare sistemi intelligenti in grado di riconoscere le interazioni tra mano e oggetto, fornendo assistenza agli esseri umani in varie attività. Tali interazioni includono toccare, tenere, manipolare o spostare oggetti. In questa tesi, abbiamo formalizzato le interazioni tra mano e oggetto sotto forma di triplette (). Tale definizione concettuale comprende il riconoscimento di mani e oggetti interagiti nelle immagini, oltre alla previsione di un'etichetta di stato di contatto per ciascuna mano, distinguendo tra "non in contatto" e "in contatto". Comprendere le interazioni tra mano e oggetto nei settori industriali può guidare i lavoratori nelle attività di assemblaggio, migliorandone efficienza e sicurezza. Tuttavia, l'efficacia di tali sistemi è strettamente legata alla presenza di dati reali etichettati su larga scala, un processo complesso e costoso. L'utilizzo di dati sintetici automaticamente annotati rappresenta un'alternativa promettente, offrendo un metodo più rapido ed economico per la generazione e l'etichettatura dei dati. Tuttavia, l'integrazione di dati sintetici pone nuove sfide, come la fedeltà dei dati e il divario tra i due domini. Questa tesi dimostra il potenziale dell'uso di dati sintetici automaticamente etichettati per migliorare la rilevazione delle interazioni tra mano e oggetto, riducendo la dipendenza dai dati reali annotati. Per studiare adeguatamente questo problema, la nostra ricerca si è concentrata sullo sviluppo di nuovi simulatori per generare dati di interazione tra mano e oggetto e su metodologie per sfruttare in modo efficace tali informazioni. In aggiunta, abbiamo raccolto e reso pubblici dataset di benchmark (ENIGMA-51, EgoISM-HOI e HOI-Synth) per supportare la nostra analisi. Riteniamo che questi dataset saranno preziosi per la comunità di ricerca, agevolando future indagini in questo settore.

Dati Sintetici per Comprendere le Interazioni Egocentriche Mano-Oggetto: Un'Esplorazione Approfondita / Leonardi, Rosario. - (2024 Jun 26).

Dati Sintetici per Comprendere le Interazioni Egocentriche Mano-Oggetto: Un'Esplorazione Approfondita

LEONARDI, Rosario
2024-06-26

Abstract

Understanding human behaviour through egocentric image and video analysis is crucial in computer vision, spanning domains like healthcare, industrial behaviour analysis, and human-computer interaction. Wearable devices play a pivotal role, enabling data collection while minimally limiting user activities. Analyzing this data enables the development of intelligent systems capable of recognizing HandObject Interactions, aiding humans in various tasks. These interactions include touching, holding, manipulating, or moving objects. In this thesis, we formalized Hand-Object Interactions as triplets in the form of (). This conceptual definition involves the recognition of hands and interacted objects in images and the prediction of a contact state label for each hand among ”not in contact” and ”in contact”. Understanding hand-object interactions in industrial domains can guide workers in assembly tasks, thereby enhancing efficiency and safety. However, the effectiveness of such systems depends on large real-world labelled data, a complex and costly process. Employing automatically annotated synthetic data is a promising alternative, offering a faster and cheaper data generation and labelling method. However, integrating synthetic data poses new challenges such as data fidelity and domain gap. This thesis demonstrates the potential of using automatically labelled synthetic data to enhance hand-object interaction detection, reducing reliance on annotated real-world data. To adequately study this problem, the research focused on developing novel simulators for generating hand-object interaction data and methodologies to leverage this data effectively. Additionally, we collected and publicly released benchmark datasets (ENIGMA-51, EgoISM-HOI, and HOI-Synth) to support our analysis. We believe these datasets will be valuable for the research community, facilitating future investigations in this domain.
26-giu-2024
Comprendere il comportamento umano attraverso l'analisi di immagini e video egocentrici è cruciale nella computer vision, estendendosi a settori quali la sanità, l'analisi comportamentale industriale e l'interazione uomo-computer. I dispositivi indossabili svolgono un ruolo chiave in questo contesto, consentendo la raccolta dati con un impatto minimo sulle attività dell'utente. Analizzando tali dati, è possibile sviluppare sistemi intelligenti in grado di riconoscere le interazioni tra mano e oggetto, fornendo assistenza agli esseri umani in varie attività. Tali interazioni includono toccare, tenere, manipolare o spostare oggetti. In questa tesi, abbiamo formalizzato le interazioni tra mano e oggetto sotto forma di triplette (). Tale definizione concettuale comprende il riconoscimento di mani e oggetti interagiti nelle immagini, oltre alla previsione di un'etichetta di stato di contatto per ciascuna mano, distinguendo tra "non in contatto" e "in contatto". Comprendere le interazioni tra mano e oggetto nei settori industriali può guidare i lavoratori nelle attività di assemblaggio, migliorandone efficienza e sicurezza. Tuttavia, l'efficacia di tali sistemi è strettamente legata alla presenza di dati reali etichettati su larga scala, un processo complesso e costoso. L'utilizzo di dati sintetici automaticamente annotati rappresenta un'alternativa promettente, offrendo un metodo più rapido ed economico per la generazione e l'etichettatura dei dati. Tuttavia, l'integrazione di dati sintetici pone nuove sfide, come la fedeltà dei dati e il divario tra i due domini. Questa tesi dimostra il potenziale dell'uso di dati sintetici automaticamente etichettati per migliorare la rilevazione delle interazioni tra mano e oggetto, riducendo la dipendenza dai dati reali annotati. Per studiare adeguatamente questo problema, la nostra ricerca si è concentrata sullo sviluppo di nuovi simulatori per generare dati di interazione tra mano e oggetto e su metodologie per sfruttare in modo efficace tali informazioni. In aggiunta, abbiamo raccolto e reso pubblici dataset di benchmark (ENIGMA-51, EgoISM-HOI e HOI-Synth) per supportare la nostra analisi. Riteniamo che questi dataset saranno preziosi per la comunità di ricerca, agevolando future indagini in questo settore.
Hand-Object Interactions; Synthetic Data; Data simulator
Interazioni Egocentriche Mano-Oggetto; Dati sintetici; Simulatore di dati
Dati Sintetici per Comprendere le Interazioni Egocentriche Mano-Oggetto: Un'Esplorazione Approfondita / Leonardi, Rosario. - (2024 Jun 26).
File in questo prodotto:
File Dimensione Formato  
Rosario_Leonardi_PhD_Thesis.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: PUBBLICO - Pubblico con Copyright
Dimensione 70.34 MB
Formato Adobe PDF
70.34 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.11769/657949
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact