Food Understanding from Digital Images

Allegra, Dario

In the last decade food understanding from digital media has become a challenge with applications in many different domains. On the other hand, food is a crucial part of human life and what people eat strongly affects their health and characterize their identity. For this reason food plays a key role in world economy. The focus of my Ph.D. thesis is the study of food image understanding from the perspective of Computer Vision and Machine Learning. As first original scientific contribution I propose an approach to perform discrimination between food VS non-Food images. For this study I adopted the One-Class Classification paradigm which allows to build a binary classifier by performing learning from the samples of one class only. Specifically, a One-Class Support Vector Machine is trained by employing food images. The second contribution of my work is related to food retrieval and classification. Since food is intrinsically deformable and presents high variability in appearance, this task is very challenging and requires an in-depth study of images representation. To this aim I propose a new representation model related to the neuroscientific notion of Anti-Texton. The third problem considered in this thesis is about food volume and carbohydrates estimation. Last but not least, new food datasets has been introduced for the scientific community. To address Food VS Non-Food problem, three datasets has been employed: the public UNICT-FD889 food dataset and two new datasets downloaded by Flickr. The latter two, include respectively 4805 food images and 8005 non-food ones. Moreover, UNICT-FD889 has been extended from 889 to 1200 classes and annotated across 8 groups: Appetizer, Main Course, Second Course, Single Course, Side Dish,Dessert, Breakfast, Fruit. To evaluate volume estimation performance a novel dataset of $80$ different plates has been built. This dataset includes RGB images, as well as depth map and 3D models. In thesis appendices, I report the other works produced during my Ph.D studies and also a comprehensive discussion on Cultural Heritage preservation and exploitation through modern technologies. These works mainly focus on 3D model reconstructions, semantic annotation platforms and virtual unrolling of papyri.

Nell ultima decade, la descrizione automatica delle informazioni relative al cibo presente nei supporti digitali visuali, si è trasformata in una sfida con molteplici applicazioni in diversi settori. D altra parte, l alimentazione rappresenta un aspetto cruciale della vita umana e, ciò di cui le persone si nutrono, influisce fortemente sulla loro salute e ne caratterizza l identità. Per questo motivo, il cibo, gioca un ruolo di primo piano nell economia mondiale. La mia tesi di dottorato si concentra sull applicazione della Computer Vision e del Machine Learning per l estrazione di informazioni relative al cibo contenuto nei media digitali. Come primo contributo innovativo, propongo un approccio per permettere di distinguere tra immagini che contengono cibo e immagini che non lo contengono. Per tale studio ho adottato il paradigma One-Class Classification, che permette di costruire un classificatore binario apprendendo solamente dai campioni di una delle due classi. In particolare, uso l algoritmo One-Class Support Vector Machine che apprende utilizzando solo le immagini che contengono cibo. Il secondo contributo originale del mio lavoro riguarda la ricerca e la classificazione del cibo che compare nelle immagini. Poiché gli alimenti sono intrinsecamente deformabili e presentano un altissima variabilità nell aspetto, questo problema risulta particolarmente complesso e richiede uno studio approfondito della rappresentazione delle immagini. A tale scopo, ho introdotto un nuovo modello di rappresentazione legato alla nozione neuroscientifica di Anti-Texton. La terza problematica che ho affrontato in questa tesi è quella sul volume degli alimenti e la stima dei carboidrati. Per concludere, ho introdotto nuovi dataset utili per la comunità scientifica. Per affrontare il problema di distinzione tra cibo e non cibo , ho impiegato tre dataset. Uno di questi è il dataset di immagini di cibo pubblico chiamato UNICT-FD889, mentre gli altri due sono stati costruiti scaricando molte immagini da Flickr. Questi ultimi, includono rispettivamente 4805 fotografie di pietanze e 8005 fotografie che immortalano contenuti di altra natura. Inoltre, il dataset UNICT-FD889 è stato da me esteso da 889 classi di cibo a 1200 e poi etichettato rispetto ad 8 gruppi: antipasto, primo piatto, secondo piatto, piatto unico, contorno, dolce, colazione e frutta. Per la valutazione degli algoritmi di stima del volume ho costruito un dataset originale di 80 differenti piatti. Tale dataset include immagini RGB, mappe di profondità e modelli 3D. Nelle appendici della tesi, ho incluso gli altri lavori scientifici svolti durante il mio percorso di dottorato; riporto anche una discussione dettagliata sulla preservazione e la valorizzazione del patrimonio culturale attraverso l uso di moderne tecnologie. Questi lavori, trattano di ricostruzione 3D, piattaforme di annotazione semantica e srotolamento virtuale di papiri.

Food Understanding from Digital Images / Allegra, Dario. - (2017 Nov 29).