The inference of novel knowledge and the generation of new hypotheses from the analysis of the current literature is a fundamental process in making new scientific discoveries, and gaining knowledge about relations among biological elements. Especially in bio-medicine, given the enormous amount of literature and knowledge bases available, this process allows the researchers to obtain information on aspects already widely investigated by others researchers. The automatic extraction of information in the form of semantically related terms (or tags) is becoming an importance aspect. Here we propose BioTAGME framework that combines TAGME annotation framework based on Wikipedia corpus (Ferragina and Scaiella, 2010), with the DT-Hybrid methodology. The aim of this combination is to extract biological terms from scientific documents available in PubMed, and predicts possible relationships among them in order to generate a knowledge graph. The proposed framework consist of two pipeline. The first one is entirely implemented in Spark in order to distribute the computing among several machines. It will be employed to annotate documents, and predict relationships among biological terms. Instead, the second one use the Laravel model-view-controller framework for the User Interface realization, and Neo4j graph database for storing the knowledge graph. In this thesis I also describe another project, called NetME, realized during the PhD. It allows to build an on-the-fly knowledge graphs starting from a subset of full texts obtained by a real-time query on PubMed and applying several semantic analysis methodologies.

L'estrazione di conoscenza dall'analisi della letteratura è un aspetto fondamentale per fare nuove scoperte scienifiche e guadagnare conoscenza riguardo relazioni tra componenti biologiche. Specialmente nel mondo della biomedicina, grazie alla conoscienza di base messa a disposizione da bance dati online, questo processo permette di ottenere informazioni da aspetti ampiamente investigati da altri ricercatori. L'estrazione atomarica di informazione sottoforma di Tag sta dientando un aspetto fondamentale. A tal riguardo, proponiamo BioTAGME un framework che combina il sistema di annotazione TAGME basato sul corpus Wikipedia con la metodologia di predizione prevista dall'algorito DT-Hybrid. L'obiettivo è quello di estrarre termini biologici da una collezione di testi in PubMED, e derivare i link di connessione tra quest'ultimi al fine di costruire un grafo di conoscenza. L'architettura consiste di un backend implementato in SPARK al fine di distribuire il calcolo computazionale tra molteplici macchine, e da un frontend implementato in React e JavaScript. Inolte, la rete prodotta è memorizzata in Neo4j. Inoltre, un ulteriore lavoro è stato presentato in questa tesi, chiamato NetME, che permette di costruire una rete di conoscenza "on the fly" a partire da una collezione di full text ottenuti da una query effettuata su PubMed Central ed applicando tecniche di sentiment analysis.

BioTAGME: Piattaforma per l'analisi di reti di conoscenza Biologica / DI MARIA, Antonio. - (2021 Feb 26).

BioTAGME: Piattaforma per l'analisi di reti di conoscenza Biologica

DI MARIA, ANTONIO
2021-02-26

Abstract

The inference of novel knowledge and the generation of new hypotheses from the analysis of the current literature is a fundamental process in making new scientific discoveries, and gaining knowledge about relations among biological elements. Especially in bio-medicine, given the enormous amount of literature and knowledge bases available, this process allows the researchers to obtain information on aspects already widely investigated by others researchers. The automatic extraction of information in the form of semantically related terms (or tags) is becoming an importance aspect. Here we propose BioTAGME framework that combines TAGME annotation framework based on Wikipedia corpus (Ferragina and Scaiella, 2010), with the DT-Hybrid methodology. The aim of this combination is to extract biological terms from scientific documents available in PubMed, and predicts possible relationships among them in order to generate a knowledge graph. The proposed framework consist of two pipeline. The first one is entirely implemented in Spark in order to distribute the computing among several machines. It will be employed to annotate documents, and predict relationships among biological terms. Instead, the second one use the Laravel model-view-controller framework for the User Interface realization, and Neo4j graph database for storing the knowledge graph. In this thesis I also describe another project, called NetME, realized during the PhD. It allows to build an on-the-fly knowledge graphs starting from a subset of full texts obtained by a real-time query on PubMed and applying several semantic analysis methodologies.
26-feb-2021
L'estrazione di conoscenza dall'analisi della letteratura è un aspetto fondamentale per fare nuove scoperte scienifiche e guadagnare conoscenza riguardo relazioni tra componenti biologiche. Specialmente nel mondo della biomedicina, grazie alla conoscienza di base messa a disposizione da bance dati online, questo processo permette di ottenere informazioni da aspetti ampiamente investigati da altri ricercatori. L'estrazione atomarica di informazione sottoforma di Tag sta dientando un aspetto fondamentale. A tal riguardo, proponiamo BioTAGME un framework che combina il sistema di annotazione TAGME basato sul corpus Wikipedia con la metodologia di predizione prevista dall'algorito DT-Hybrid. L'obiettivo è quello di estrarre termini biologici da una collezione di testi in PubMED, e derivare i link di connessione tra quest'ultimi al fine di costruire un grafo di conoscenza. L'architettura consiste di un backend implementato in SPARK al fine di distribuire il calcolo computazionale tra molteplici macchine, e da un frontend implementato in React e JavaScript. Inolte, la rete prodotta è memorizzata in Neo4j. Inoltre, un ulteriore lavoro è stato presentato in questa tesi, chiamato NetME, che permette di costruire una rete di conoscenza "on the fly" a partire da una collezione di full text ottenuti da una query effettuata su PubMed Central ed applicando tecniche di sentiment analysis.
Knowledge Graph, Document Annotation, Prediction Algorithms, Sentimental Analysis Methodologies, Apache SPARK, HDFS, Neo4j
Rete di conoscenza, Annotazione di documenti, Algoriti di predizione, Metodologie basate su sentimental analysis, Apache Spark, HDFS, Neo4j
BioTAGME: Piattaforma per l'analisi di reti di conoscenza Biologica / DI MARIA, Antonio. - (2021 Feb 26).
File in questo prodotto:
File Dimensione Formato  
Tesi di dottorato - DI MARIA ANTONIO 20210118203744.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: PUBBLICO - Pubblico con Copyright
Dimensione 7.73 MB
Formato Adobe PDF
7.73 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.11769/581930
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact