In the last years, the exponential diffusion of fake news has become an alarming phenomenon, thanks to the advent of new technologies that have changed the way information is produced, accessed, consumed, and spread. Nowadays, the World Wide Web, with its blogging and social platforms, represents a global information-sharing space, being able to connect people around the world and making knowledge more accessible to everyone, with no or low costs. The growth in information production appears thus unstoppable and increasingly affected by actors that intentionally do malicious propaganda and misinformation, encouraged by instant sharing, automation (e.g., bots) and forward buttons that expand the virality of web and social content, making it easily shareable and difficult to monitor. Due to their scale, severity and impact on social, economic and political systems, fake news, disinformation and propaganda represent also a social Cyber Security challenge for securing democracies, which depend on the open and free sharing of information, without censorship or other interference. The content of this thesis reflects the work I have done over the period of my PhD at the University of Catania and addresses the contemporary challenges associated with the spread of fake news as a consequence of the massive infodemic, i.e., an overabundance of information, which we are subjected to every day, by adopting an interdisciplinary approach to identify specific patterns and detect actors involved in spreading misleading content across the Web, whose Web Search Engines (WSEs) - such as Google, Bing, Yahoo! - are windows onto it. The phenomenon of fake news has been investigated along two main research directions. The first one (Mazzeo and Rapisarda, 2022) explores some well- known international unreliable websites, i.e., websites that have published or shared misleading content across the Web over the past years, and mainstream media outlets. Information on the relationships among websites that share a similar audience (audience overlap) was then extracted for allowing us to spot groups of websites that are generally responsible for disseminating online disinformation in order to prevent the harm caused by that. The science of Complex Systems provides tools and methods to approach and seek to respond to this type of real problems, encouraging an interdisciplinary research. Indeed, the Web can be thought as a complex system made up of a multitude of websites, some of them interacting with each other, perhaps through backlinks, i.e., links on websites other than a target domain that point to pages on that website, representing therefore another website’s traffic coming to the target. The relationships among websites can, then, be used to understand the ‘rules’ governing a complex system like the Web or, as in the specific case of this first study, like a group of websites that share real or fake news, allowing us to discover an emergent behaviour that, otherwise, would not be able to be discovered by only analysing the individual behaviour of the single components. By using networks as a way to represent and describe real systems, the global and local properties that arise from the relationships among websites have been investigated. Along this analysis, another one was performed for each news website, looking at domain availability and other WHOIS information such as the domain name registration records. The results of the first study highlight the importance of certain network’s properties (e.g., assortativity and clustering coefficient) that can help differentiate mainstream news websites from those sharing misleading news. Moreover, the results have shown extremist news sources of any political leaning be generally mostly responsible of producing and spreading disinformation. The second research direction (Mazzeo et al., 2021) aims to detect potential misleading and fake contents by capturing and analysing textual information which flows through WSEs, including extra features based on both lexical and host-based information associated with Uniform Locator Forms (URLs). The results of this second work show that the use of methods, usually employed in phishing and malicious URL detection, in the context of Cyber Security and Social Engineering, can improve the efficiency and performance of the most commonly used Machine Learning classifiers.

Negli ultimi anni la diffusione esponenziale delle fake news è diventata un fenomeno allarmante, grazie all'avvento di nuove tecnologie che hanno cambiato il modo in cui le informazioni vengono prodotte, acquisite, consumate e diffuse. Al giorno d'oggi, il World Wide Web, con i suoi blog e piattaforme social, rappresenta uno spazio globale di condivisione delle informazioni, in grado di connettere persone in tutto il mondo e rendere la conoscenza più accessibile a tutti, a costi bassi o nulli. La crescita della produzione di informazioni appare quindi inarrestabile e sempre più colpita da attori che fanno intenzionalmente propaganda ingannevole e disinformazione, incoraggiati dalla condivisione istantanea, dall'automazione (es. bot) e pulsanti forward che espandono la viralità dei contenuti web e social, rendendoli facilmente condivisibili e difficili da monitorare. Per la loro portata, gravità e impatto sui sistemi sociali, economici e politici, le fake news, la disinformazione e la propaganda rappresentano anche una sfida di sicurezza informatica sociale per la sicurezza delle democrazie, che dipendono dalla condivisione aperta e gratuita delle informazioni, senza censure o altre interferenze. Il contenuto di questa tesi riflette il lavoro svolto durante il periodo del mio dottorato di ricerca presso l'Università di Catania e affronta le sfide contemporanee legate alla diffusione delle fake news in conseguenza della massiccia infodemia, ovvero una sovrabbondanza di informazioni, che a cui siamo sottoposti ogni giorno, adottando un approccio interdisciplinare per identificare modelli specifici e rilevare gli attori coinvolti nella diffusione di contenuti ingannevoli sul Web, i cui motori di ricerca Web (WSE) - come Google, Bing, Yahoo!- sono finestre su di esso. Il fenomeno delle fake news è stato indagato lungo due principali direttrici di ricerca. Il primo lavoro (Mazzeo e Rapisarda, 2022) esplora alcuni noti siti Web internazionali inaffidabili, ovvero siti Web che hanno pubblicato o condiviso contenuti ingannevoli sul Web negli ultimi anni, e media mainstream. Sono state quindi estratte informazioni sulle relazioni tra siti Web che condividono un pubblico simile (sovrapposizione del pubblico) per consentirci di individuare gruppi di siti Web generalmente responsabili della diffusione online di disinformazione al fine di prevenire i danni da essa causati. La scienza dei Sistemi Complessi fornisce strumenti e metodi per avvicinarsi e cercare di rispondere a questo tipo di problemi reali, favorendo una ricerca interdisciplinare. Il Web, infatti, può essere pensato come un sistema complesso costituito da una moltitudine di siti web, alcuni dei quali interagiscono tra loro, magari tramite backlink, ovvero link su siti web diversi da un dominio target che puntano a pagine di quel sito web, rappresentando quindi il traffico di un altro sito web che arriva al target. Le relazioni tra siti web possono, quindi, essere utilizzate per comprendere le 'regole' che governano un sistema complesso come il Web o, come nel caso specifico di questo primo studio, come un gruppo di siti web che condividono notizie vere o false, permettendoci di scoprire un comportamento emergente che, altrimenti, non potrebbe essere scoperto solo analizzando il comportamento individuale dei singoli componenti. Utilizzando le reti come mezzo per rappresentare e descrivere sistemi reali, sono state studiate le proprietà globali e locali che derivano dalle relazioni tra i siti web. Durante questa analisi, ne è stata eseguita un'altra per ciascun sito Web di notizie, esaminando la disponibilità del dominio e altre informazioni WHOIS come i record di registrazione del nome di dominio. I risultati del primo studio evidenziano l'importanza di alcune proprietà della rete (ad esempio, l'assortitività e il coefficiente di clustering) che possono aiutare a differenziare i principali siti web di notizie da quelli che condividono notizie fuorvianti. Inoltre, i risultati hanno mostrato che le fonti di notizie estremiste di qualsiasi orientamento politico sono generalmente le principali responsabili della produzione e della diffusione della disinformazione. La seconda direzione di ricerca (Mazzeo et al., 2021) mira a rilevare potenziali contenuti fuorvianti e falsi acquisendo e analizzando le informazioni testuali che fluiscono attraverso i WSE, comprese le funzionalità extra basate sia su informazioni lessicali che basate sull'host associate a Uniform Locator Forms (URLs ). I risultati di questo secondo lavoro mostrano che l'uso di metodi, solitamente impiegati nel rilevamento di phishing e URL dannosi, nell'ambito della Cyber ​​Security e dell'ingegneria sociale, può migliorare l'efficienza e le prestazioni dei classificatori di Machine Learning più comunemente utilizzati.

Investigare la disinformazione online attraverso l’uso di reti complesse e del Machine Learning / Mazzeo, Valeria. - (2022 Sep 07).

Investigare la disinformazione online attraverso l’uso di reti complesse e del Machine Learning

MAZZEO, VALERIA
2022-09-07

Abstract

In the last years, the exponential diffusion of fake news has become an alarming phenomenon, thanks to the advent of new technologies that have changed the way information is produced, accessed, consumed, and spread. Nowadays, the World Wide Web, with its blogging and social platforms, represents a global information-sharing space, being able to connect people around the world and making knowledge more accessible to everyone, with no or low costs. The growth in information production appears thus unstoppable and increasingly affected by actors that intentionally do malicious propaganda and misinformation, encouraged by instant sharing, automation (e.g., bots) and forward buttons that expand the virality of web and social content, making it easily shareable and difficult to monitor. Due to their scale, severity and impact on social, economic and political systems, fake news, disinformation and propaganda represent also a social Cyber Security challenge for securing democracies, which depend on the open and free sharing of information, without censorship or other interference. The content of this thesis reflects the work I have done over the period of my PhD at the University of Catania and addresses the contemporary challenges associated with the spread of fake news as a consequence of the massive infodemic, i.e., an overabundance of information, which we are subjected to every day, by adopting an interdisciplinary approach to identify specific patterns and detect actors involved in spreading misleading content across the Web, whose Web Search Engines (WSEs) - such as Google, Bing, Yahoo! - are windows onto it. The phenomenon of fake news has been investigated along two main research directions. The first one (Mazzeo and Rapisarda, 2022) explores some well- known international unreliable websites, i.e., websites that have published or shared misleading content across the Web over the past years, and mainstream media outlets. Information on the relationships among websites that share a similar audience (audience overlap) was then extracted for allowing us to spot groups of websites that are generally responsible for disseminating online disinformation in order to prevent the harm caused by that. The science of Complex Systems provides tools and methods to approach and seek to respond to this type of real problems, encouraging an interdisciplinary research. Indeed, the Web can be thought as a complex system made up of a multitude of websites, some of them interacting with each other, perhaps through backlinks, i.e., links on websites other than a target domain that point to pages on that website, representing therefore another website’s traffic coming to the target. The relationships among websites can, then, be used to understand the ‘rules’ governing a complex system like the Web or, as in the specific case of this first study, like a group of websites that share real or fake news, allowing us to discover an emergent behaviour that, otherwise, would not be able to be discovered by only analysing the individual behaviour of the single components. By using networks as a way to represent and describe real systems, the global and local properties that arise from the relationships among websites have been investigated. Along this analysis, another one was performed for each news website, looking at domain availability and other WHOIS information such as the domain name registration records. The results of the first study highlight the importance of certain network’s properties (e.g., assortativity and clustering coefficient) that can help differentiate mainstream news websites from those sharing misleading news. Moreover, the results have shown extremist news sources of any political leaning be generally mostly responsible of producing and spreading disinformation. The second research direction (Mazzeo et al., 2021) aims to detect potential misleading and fake contents by capturing and analysing textual information which flows through WSEs, including extra features based on both lexical and host-based information associated with Uniform Locator Forms (URLs). The results of this second work show that the use of methods, usually employed in phishing and malicious URL detection, in the context of Cyber Security and Social Engineering, can improve the efficiency and performance of the most commonly used Machine Learning classifiers.
7-set-2022
Negli ultimi anni la diffusione esponenziale delle fake news è diventata un fenomeno allarmante, grazie all'avvento di nuove tecnologie che hanno cambiato il modo in cui le informazioni vengono prodotte, acquisite, consumate e diffuse. Al giorno d'oggi, il World Wide Web, con i suoi blog e piattaforme social, rappresenta uno spazio globale di condivisione delle informazioni, in grado di connettere persone in tutto il mondo e rendere la conoscenza più accessibile a tutti, a costi bassi o nulli. La crescita della produzione di informazioni appare quindi inarrestabile e sempre più colpita da attori che fanno intenzionalmente propaganda ingannevole e disinformazione, incoraggiati dalla condivisione istantanea, dall'automazione (es. bot) e pulsanti forward che espandono la viralità dei contenuti web e social, rendendoli facilmente condivisibili e difficili da monitorare. Per la loro portata, gravità e impatto sui sistemi sociali, economici e politici, le fake news, la disinformazione e la propaganda rappresentano anche una sfida di sicurezza informatica sociale per la sicurezza delle democrazie, che dipendono dalla condivisione aperta e gratuita delle informazioni, senza censure o altre interferenze. Il contenuto di questa tesi riflette il lavoro svolto durante il periodo del mio dottorato di ricerca presso l'Università di Catania e affronta le sfide contemporanee legate alla diffusione delle fake news in conseguenza della massiccia infodemia, ovvero una sovrabbondanza di informazioni, che a cui siamo sottoposti ogni giorno, adottando un approccio interdisciplinare per identificare modelli specifici e rilevare gli attori coinvolti nella diffusione di contenuti ingannevoli sul Web, i cui motori di ricerca Web (WSE) - come Google, Bing, Yahoo!- sono finestre su di esso. Il fenomeno delle fake news è stato indagato lungo due principali direttrici di ricerca. Il primo lavoro (Mazzeo e Rapisarda, 2022) esplora alcuni noti siti Web internazionali inaffidabili, ovvero siti Web che hanno pubblicato o condiviso contenuti ingannevoli sul Web negli ultimi anni, e media mainstream. Sono state quindi estratte informazioni sulle relazioni tra siti Web che condividono un pubblico simile (sovrapposizione del pubblico) per consentirci di individuare gruppi di siti Web generalmente responsabili della diffusione online di disinformazione al fine di prevenire i danni da essa causati. La scienza dei Sistemi Complessi fornisce strumenti e metodi per avvicinarsi e cercare di rispondere a questo tipo di problemi reali, favorendo una ricerca interdisciplinare. Il Web, infatti, può essere pensato come un sistema complesso costituito da una moltitudine di siti web, alcuni dei quali interagiscono tra loro, magari tramite backlink, ovvero link su siti web diversi da un dominio target che puntano a pagine di quel sito web, rappresentando quindi il traffico di un altro sito web che arriva al target. Le relazioni tra siti web possono, quindi, essere utilizzate per comprendere le 'regole' che governano un sistema complesso come il Web o, come nel caso specifico di questo primo studio, come un gruppo di siti web che condividono notizie vere o false, permettendoci di scoprire un comportamento emergente che, altrimenti, non potrebbe essere scoperto solo analizzando il comportamento individuale dei singoli componenti. Utilizzando le reti come mezzo per rappresentare e descrivere sistemi reali, sono state studiate le proprietà globali e locali che derivano dalle relazioni tra i siti web. Durante questa analisi, ne è stata eseguita un'altra per ciascun sito Web di notizie, esaminando la disponibilità del dominio e altre informazioni WHOIS come i record di registrazione del nome di dominio. I risultati del primo studio evidenziano l'importanza di alcune proprietà della rete (ad esempio, l'assortitività e il coefficiente di clustering) che possono aiutare a differenziare i principali siti web di notizie da quelli che condividono notizie fuorvianti. Inoltre, i risultati hanno mostrato che le fonti di notizie estremiste di qualsiasi orientamento politico sono generalmente le principali responsabili della produzione e della diffusione della disinformazione. La seconda direzione di ricerca (Mazzeo et al., 2021) mira a rilevare potenziali contenuti fuorvianti e falsi acquisendo e analizzando le informazioni testuali che fluiscono attraverso i WSE, comprese le funzionalità extra basate sia su informazioni lessicali che basate sull'host associate a Uniform Locator Forms (URLs ). I risultati di questo secondo lavoro mostrano che l'uso di metodi, solitamente impiegati nel rilevamento di phishing e URL dannosi, nell'ambito della Cyber ​​Security e dell'ingegneria sociale, può migliorare l'efficienza e le prestazioni dei classificatori di Machine Learning più comunemente utilizzati.
Disinformation, Complex Systems, Web Search Engines, Machine Learning, SEO, Phishing, Fake news
Disinformazione, Sistemi Complessi, Motori di Ricerca, Machine Learning, SEO, Phishing, Fake News
Investigare la disinformazione online attraverso l’uso di reti complesse e del Machine Learning / Mazzeo, Valeria. - (2022 Sep 07).
File in questo prodotto:
File Dimensione Formato  
Tesi_finale.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: PUBBLICO - Pubblico con Copyright
Dimensione 24.71 MB
Formato Adobe PDF
24.71 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.11769/581232
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact