Codificare il Corpo: uno Studio dell’Approccio Cognitivo e Socio-Semiotico nella Creazione di un Dataset Multimodale in Lingua dei Segni Italiana (LIS).

Caligiore, Gaia

Codifying the body and describing its movements during the act of signing is a task that has long been discussed in the field of sign language studies, with enquiries on how to capture and label signed discourse being established since the very beginning of contemporary sign language research (Stokoe, 1960). Starting from this premise, and laying its ground on an interdisciplinary perspective, the present work aims to present a multimodal dataset in Italian Sign Language (LIS), describing a process of data collection and computational annotation. Traditionally, the field of sign language research has been characterized by a dichotomy between perspectives of contrast and continuity within features and attributes associated to vocal languages. In this regard, this thesis proposes a challenging middle-ground viewpoint, integrating characteristic insights from formalist and functionalist approaches in the study of sign languages. The goal is to draw aspects and methodologies from these perspectives that can be advantageously integrated to promote an interdisciplinary, current, and accessible collection and description of LIS. Positioning itself theoretically within the cognitive and socio-semiotic framework of sign language description (Volterra et al., 2022), this work aims to suggest and apply guidelines and best practices for the collection and computational annotation of video data in LIS by taking into account other corpora collections and annotation experiences. It ponders the peculiarities of LIS, such as its multimodal and multilinear nature, while also considering the daily use made of it by the Italian signing community. In this perspective, language cannot be separated from its sociocultural and historical context (Russo Cardona, 2004b), nor from its embodied nature (Lakoff & Johnson, 1980), as it is through the body that we humans live and describe our experiences. This assertion becomes even more important when the object of study is a sign language mediated through the visual-gestural channel, where the body itself constructs meaning. Building on these assumptions, this thesis introduces a video collection method for LIS. This method is grounded in the use of multimodal and synchronized RADAR sensor and camera video capturing tools, allowing for detailed information gathering on all body parts involved in the act of signing, whether referring to manual or body elements. The subsequent annotations, developed using the ELAN software, occur on different levels, employing vocal labels in Italian and English, along with a specific annotation system for sign languages: Typannot (Bianchini, 2023). The interdisciplinary nature of the project is also reflected in the accessibility of annotations, enabling various users to access the information contained in the recorded videos, regardless of familiarity with LIS. This thesis thus demonstrates that the suggested system of data collection, employing RADAR sensor and camera video capturing tools, alongside integrated multimodal corpora annotation techniques, accurately reflects the intricate nature of a signed language. This approach extends beyond the current state of the art by offering a pathway for the advancement of sign language recognition systems and more effective automatic translation tools.

Codificare il corpo e descrivere i suoi movimenti durante l’atto di segnare è un tema ampiamente discusso nel campo degli studi sulle lingue dei segni. Infatti, fin dagli albori della ricerca contemporanea sulle lingue dei segni (Stokoe, 1960), sono stati intrapresi studi mirati a comprendere come catturare e categorizzare in modo efficace il discorso segnato. Il presente lavoro, a partire da questa premessa e applicando una prospettiva interdisciplinare, ha come obiettivo la presentazione di un dataset multimodale in Lingua dei Segni Italiana (LIS), descrivendo i processi di raccolta e annotazione computazionale dei dati. Nella ricerca sulle lingue dei segni, la dicotomia tra prospettive di contrasto e continuità rispetto alle lingue vocali ha storicamente caratterizzato il campo. In quest’ottica, la tesi propone un approccio sfidante e mediano, integrando punti caratteristici di prospettive formaliste e funzionaliste nello studio delle lingue dei segni. L’obiettivo è trarre da queste prospettive aspetti e approcci che possano essere vantaggiosamente integrati per favorire una raccolta e descrizione interdisciplinare, attuale e accessibile della LIS. Posizionandosi teoricamente nel quadro cognitivo e socio-semiotico della descrizione delle lingue dei segni (Volterra et al., 2022), questo lavoro mira a proporre linee guida e buone pratiche per la raccolta e annotazione computazionale di materiali video in LIS, tenendo conto delle peculiarità della lingua stessa, come la sua multimodalità e multilinearità, e considerando anche l'uso quotidiano che la comunità segnante italiana fa di essa. In questa prospettiva, la lingua non può essere separata dal suo contesto socioculturale e storico (Russo Cardona, 2004b), né dalla sua natura embodied (Lakoff & Johnson, 1980), poiché è attraverso il corpo che noi esseri umani viviamo e descriviamo le nostre esperienze. Tale affermazione assume ulteriore importanza quando l’oggetto di studio è una lingua mediata dal canale visivo-gestuale, in cui è il corpo stesso a costruire significato. A partire da queste premesse, questa tesi introduce un metodo di raccolta video per la LIS. Il metodo presentato si basa sull’uso di strumenti di acquisizione video multimodali e sincronizzati, come sensori RADAR e videocamere, consentendo una raccolta dettagliata di informazioni su tutte le parti del corpo coinvolte nell’atto di segnare, che si tratti di elementi manuali o corporei La successiva annotazione, sviluppata utilizzando il software ELAN, avviene su diversi livelli, adottando etichette vocali in italiano e inglese, insieme a un sistema di annotazione specifico per le lingue dei segni: Typannot (Bianchini, 2023). La natura interdisciplinare del progetto si riflette inoltre nell’accessibilità delle annotazioni, consentendo a diversi utenti di accedere alle informazioni contenute nei video in LIS, indipendentemente dalla familiarità con la LIS. Questa tesi dimostra dunque che il sistema proposto di raccolta dati, utilizzando sensori RADAR e strumenti di acquisizione video delle telecamere, insieme a tecniche integrate di annotazione di corpora multimodali, è in grado di riflettere con precisione la complessa natura di una lingua dei segni. Questo approccio va oltre lo stato attuale dell’arte offrendo un percorso per lo sviluppo di sistemi di riconoscimento delle lingue dei segni e per la realizzazione di strumenti di traduzione automatica più efficaci.

Codificare il Corpo: uno Studio dell’Approccio Cognitivo e Socio-Semiotico nella Creazione di un Dataset Multimodale in Lingua dei Segni Italiana (LIS) / Caligiore, Gaia. - (2024 Jul 01).