This thesis addresses the problem of unsupervised domain adaptation (UDA) for the object detection and action recognition. UDA is a machine learning technique that aims to minimize the domain shift between a source domain (with labeled data) and a target domain (with unlabeled data). The main goal is to develop a model capable of adapting to different scenarios, eliminating the need for resource-intensive data labeling and retraining, while maximizing the performance on the target domain. We investigate the UDA problem and explore its applications in object detection and action recognition. For object detection, we introduce two datasets and propose novel architectures based on adversarial learning, self-training, and image-to-image translation to learn domain-invariant representations that can generalize across single or multiple target domains. For action recognition, we analyze the ability of state-of-the-art methods to generalize across first-person and third-person actions, identifying the most efficient techniques for detecting actions from both point of view. We conclude by discussing the limitations and future directions of UDA research in computer vision tasks. We have publicly released the code of the proposed algorithms and the datasets, facilitating further research in this area.
Questa tesi affronta il problema di unsupervised domain adaptation (UDA) per la rilevazione degli oggetti e il riconoscimento delle azioni. UDA è una tecnica di machine learning che mira a ridurre le differenze di distribuzione tra un dominio di origine (con dati etichettati) e un dominio di destinazione (con dati non etichettati). L'obiettivo principale è sviluppare un modello in grado di adattarsi a scenari diversi, eliminando la necessità di etichettare intensivamente i dati e di riformare il modello, massimizzando al contempo le prestazioni nel dominio di destinazione. Indaghiamo il problema di UDA ed esploriamo le sue applicazioni nella rilevazione degli oggetti e nel riconoscimento delle azioni. Per la rilevazione degli oggetti, presentiamo due set di dati e proponiamo architetture innovative basate su adversarial learning, self-training e image-to-image translation per apprendere rappresentazioni invarianti rispetto al dominio che possono generalizzare su singoli o multipli domini di destinazione. Per il riconoscimento delle azioni, analizziamo la capacità dei metodi più avanzati di generalizzare tra azioni in prima persona e in terza persona, identificando le tecniche più efficienti per rilevare azioni da entrambi i punti di vista. Concludiamo discutendo i limiti e le future direzioni della ricerca. Il codice degli algoritmi proposti e dei set di dati sono stati resi pubblici, agevolando ulteriori ricerche in questo campo.
Unsupervised Domain Adaptation per la rilevazione di oggetti e riconoscimento di azioni / Pasqualino, Giovanni. - (2024 Feb 12).
Unsupervised Domain Adaptation per la rilevazione di oggetti e riconoscimento di azioni
PASQUALINO, GIOVANNI
2024-02-12
Abstract
This thesis addresses the problem of unsupervised domain adaptation (UDA) for the object detection and action recognition. UDA is a machine learning technique that aims to minimize the domain shift between a source domain (with labeled data) and a target domain (with unlabeled data). The main goal is to develop a model capable of adapting to different scenarios, eliminating the need for resource-intensive data labeling and retraining, while maximizing the performance on the target domain. We investigate the UDA problem and explore its applications in object detection and action recognition. For object detection, we introduce two datasets and propose novel architectures based on adversarial learning, self-training, and image-to-image translation to learn domain-invariant representations that can generalize across single or multiple target domains. For action recognition, we analyze the ability of state-of-the-art methods to generalize across first-person and third-person actions, identifying the most efficient techniques for detecting actions from both point of view. We conclude by discussing the limitations and future directions of UDA research in computer vision tasks. We have publicly released the code of the proposed algorithms and the datasets, facilitating further research in this area.File | Dimensione | Formato | |
---|---|---|---|
PhD_Thesis_Pasqualino.pdf
accesso aperto
Tipologia:
Tesi di dottorato
Licenza:
PUBBLICO - Pubblico con Copyright
Dimensione
28.44 MB
Formato
Adobe PDF
|
28.44 MB | Adobe PDF | Visualizza/Apri |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.