Concordanze e NLP: idee, metodi e regole per l’applicazione alla lingua italiana

IRIS

La lemmatizzazione automatica dei testi rappresenta uno strumento fondamentale nell'elaborazione del linguaggio naturale (NLP), in quanto consente di associare le occorrenze testuali ai loro lemmi, ovvero alle voci di vocabolario da cui derivano. Questo processo, essenziale per l'analisi linguistica e semantica, presenta tuttavia sfide significative quando applicato alla lingua italiana. In particolare, le peculiarità morfologiche della lingua, come la presenza di enclitiche e omografi, rendono necessaria l'adozione di approcci che coniughino tecnologie avanzate e interventi di disambiguazione personalizzati. In questo lavoro si analizza l'uso combinato di spaCy e UDPipe, per la lemmatizzazione automatica di testi italiani, evidenziandone i punti di forza e le limitazioni. Tali strumenti sono integrati con il software LiotroConcord_v2, sviluppato su piattaforma 4D, implementando regole personalizzate per la gestione di casi complessi. Questo studio si propone di discutere l'importanza di un approccio ibrido alla lemmatizzazione, che integri metodi automatici e correttivi manuali, al fine di migliorare la qualità dell'analisi linguistica nel contesto delle edizioni digitali e della ricerca filologica. In particolare, vengono approfonditi i contributi metodologici e tecnologici del sistema sviluppato, con uno sguardo alle potenziali applicazioni future e alla possibilità di estendere tali soluzioni a ulteriori ambiti di ricerca. Nella seconda parte viene presentato un caso di studio specifico relativo alla codifica e alla lemmatizzazione de I Viceré.

Concordanze e NLP: idee, metodi e regole per l’applicazione alla lingua italiana

Pietro Sichera;Giuseppe Palazzolo;Christian D'Agata

2025-01-01

Abstract

La lemmatizzazione automatica dei testi rappresenta uno strumento fondamentale nell'elaborazione del linguaggio naturale (NLP), in quanto consente di associare le occorrenze testuali ai loro lemmi, ovvero alle voci di vocabolario da cui derivano. Questo processo, essenziale per l'analisi linguistica e semantica, presenta tuttavia sfide significative quando applicato alla lingua italiana. In particolare, le peculiarità morfologiche della lingua, come la presenza di enclitiche e omografi, rendono necessaria l'adozione di approcci che coniughino tecnologie avanzate e interventi di disambiguazione personalizzati. In questo lavoro si analizza l'uso combinato di spaCy e UDPipe, per la lemmatizzazione automatica di testi italiani, evidenziandone i punti di forza e le limitazioni. Tali strumenti sono integrati con il software LiotroConcord_v2, sviluppato su piattaforma 4D, implementando regole personalizzate per la gestione di casi complessi. Questo studio si propone di discutere l'importanza di un approccio ibrido alla lemmatizzazione, che integri metodi automatici e correttivi manuali, al fine di migliorare la qualità dell'analisi linguistica nel contesto delle edizioni digitali e della ricerca filologica. In particolare, vengono approfonditi i contributi metodologici e tecnologici del sistema sviluppato, con uno sguardo alle potenziali applicazioni future e alla possibilità di estendere tali soluzioni a ulteriori ambiti di ricerca. Nella seconda parte viene presentato un caso di studio specifico relativo alla codifica e alla lemmatizzazione de I Viceré.

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno
	
				2025
			
	Codice ISBN
	
				9788894253597
			
	Parole chiave
	
				lemmatization; concordance; NLP; model; digital scientific editions
			
	Appare nelle tipologie:
	
				4.1 Contributo in Atti di convegno

File in questo prodotto:

File	Dimensione	Formato
2025 AIUCD PalazzoloDAgataSichera.pdf accesso aperto Tipologia: Versione Editoriale (PDF) Licenza: Creative commons Dimensione 1.43 MB Formato Adobe PDF Visualizza/Apri	1.43 MB	Adobe PDF	Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.11769/677478

Citazioni

ND

ND

ND

social impact