Emulating human learning is a fundamental component in research towards artificial intelligence (AI). However, despite the substantial progress in the last decades, humans continue to outperform machines in many visual tasks. The motivation for this discrepancy might be rooted in the lack of a fully understanding the human learning process that is featured by being resilient to task and data changes and keep increasing over time. In contrast, Artificial Neural Networks (ANN) are highly susceptible to shifts in data distribution over time, a shortcoming that hinders the development of intelligent agents that can rapidly adapt to different context and experiences. Continual Learning (CL) is a paradigm in AI that focuses on the ability of models to learn continuously over time, assimilating new knowledge while concurrently preserving and building upon previously acquired insights. Traditional AI models, when exposed to new data or tasks, often suffer from "Catastrophic Forgetting”, where the introduction of new information can overwrite previously learned knowledge, or even erase it. The essence of CL is to counteract this limitation, pioneering algorithms and strategies that empower models to seamlessly integrate new information without compromising the integrity of their existing knowledge base. Drawing inspiration from the human cognitive system’s remarkable ability to learn, adapt and remember over decades, in this thesis we aim to propose new solutions for AI systems that reflect this adaptability and long-term retention. The ambition is to help usher in a new era of AI where systems not only evolve in response to changing data landscape but also become repositories of accumulated knowledge over extended periods. We propose to address the problem of Forgetting from two perspectives. In the first part, we design new methods inspired by the human ability to draw on existing knowledge to address new challenges and devise effective solutions. Past experience serves as a valuable reservoir of insights that can be leveraged when tackling new problems. We emulate prior knowledge within a neural network by employing an auxiliary stream of data, that may encompass relevant features for both the current and subsequent tasks. Alternatively, we introduce an hybrid transfer learning approach based on a fixed pre-trained sibling network, which propagates the knowledge inherent in the source domain throughout the continual learning process. Then, we present an efficient strategy for coupling the primary classification task with an orthogonal task that guides training, yielding additional useful knowledge without the need to use external auxiliary data. In the second part of this dissertation, we present two innovative solutions, deeply inspired by cognitive theories, that attempt to replicate in artificial networks some fundamental human cognitive processes. The first approach exploits the mechanism of human visual system, showing the remarkable property of selective attention to be resistant to forgetting. This inherent robustness of the saliency prediction task, perfectly suits with the continual learning context, improving the performance of a continual classifier. Finally, we introduce a novel wake-sleep learning framework, where the phase of acquiring new knowledge from the current task (wake) alternates with a phase dedicated to consolidating and preparing for subsequent experiences (sleep). This emulation mirrors the role of dreaming in easing the learning process and enhancing the generalization capability.

Emulare l'apprendimento umano è una delle componenti fondamenti della ricerca sull'intelligenza artificiale (IA). Tuttavia, nonostante i notevoli progressi compiuti negli ultimi decenni, l'essere umano continua a ottenere performance superiori alle macchine in molti task di computer vision. La motivazione di questa discrepanza potrebbe avere origine nel fatto di non avere ancora conoscenza completa dei processi di apprendimento umano, caratterizzato dalla capacità di essere resistente ai cambiamenti ai task e ai dati, e di accrescere nel tempo. Le reti neurali artificiali (ANN), al contrario, sono altamente suscettibili ai cambiamenti nella distribuzione dei dati nel tempo, una mancanza che ostacola lo sviluppo di agenti intelligenti in grado di adattarsi rapidamente a differenti contesti ed esperienze. Il Continual Learning, (CL) è un paradigma della IA che si concentra sull'abilità dei modelli di apprendere in maniera continuata nel tempo, acquisendo nuova conoscenza e, al tempo stesso, mantenendo e ampliando le informazioni precedentemente acquisite. I modelli di AI tradizionali, quando sottoposti a nuovi dati o task, tipicamente soffrono del fenomeno del "Catastrophic Forgetting", in quanto l'introduzione di nuove informazioni da acquisire possono sovrascrivere la conoscenza precedentemente acquisita, o addirittura cancellarla. L'essenza del CL consiste nel cercare di contrastare questa limitazione, proponendo algoritmi e strategie che consentano ai modelli di integrare new conoscenza senza compromettere l'integrità della già esistente base di conoscenza. Ispirandoci alla notevole capacità del sistema cognitivo umano di apprendere, adattarsi e ricordare per decenni, in questa tesi intendiamo proporre nuove soluzioni per i sistemi di IA che riflettano questa adattabilità e conservazione a lungo termine. L'ambizione è quella di contribuire a inaugurare una nuova era dell'IA in cui i sistemi non solo si evolvono in risposta ai cambiamenti del panorama dei dati, ma diventano anche depositari della conoscenza accumulata per lunghi periodi. Proponiamo di affrontare il problema del Forgetting da due prospettive. Nella prima parte, progettiamo nuovi metodi ispirati alla capacità umana di attingere dalla conoscenza esistente per affrontare nuovi task ed elaborare soluzioni efficaci. L'esperienza passata funge da prezioso bagaglio di informazioni che possono essere sfruttate quando si affrontano nuovi problemi. Emuliamo la conoscenza pregressa all'interno di una rete neurale impiegando un flusso ausiliario di dati, che può contenere features rilevanti sia per il task corrente che per quelli successivi. In alternativa, proponiamo un approccio ibrido di Transfer Learning, basato su una rete gemella pre-addestrata, che propaga la conoscenza acquisita precedentemente durante il processo di continual learning. Successivamente presentiamo una strategia efficiente per associare il task primario di classificazione delle immagini con un task ortogonale che ne guida l'addestramento, producendo conoscenza aggiuntiva utile senza la necessità di utilizzare dati ausiliari esterni. Nella seconda parte di questa tesi, presentiamo due soluzioni innovative, largamente ispirate alle teorie cognitive, che cercano di replicare nelle reti artificiali alcuni fondamentali processi cognitivi umani. Il primo approccio sfrutta il meccanismo del sistema visivo umano, mostrando la notevole proprietà dell'attenzione selettiva di essere resistente al forgetting. Questa robustezza intrinseca del task di predizione della salienza si adatta perfettamente al contesto del continual learning, migliorando le prestazioni di un classificatore in continual. Infine, introduciamo un nuovo schema di apprendimento veglia-sonno, in cui la fase di acquisizione di nuove conoscenze del task corrente (veglia) si alterna a una fase dedicata al consolidamento e alla preparazione per le esperienze successive (sonno). Questa emulazione rispecchia il ruolo del sogno nel facilitare il processo di apprendimento e nel migliorare la capacità di generalizzazione.

Paradigmi ispirati da scienze neurocognitive per il Continual Learning / Bellitto, Giovanni. - (2023 Nov 13).

Paradigmi ispirati da scienze neurocognitive per il Continual Learning

BELLITTO, GIOVANNI
2023-11-13

Abstract

Emulating human learning is a fundamental component in research towards artificial intelligence (AI). However, despite the substantial progress in the last decades, humans continue to outperform machines in many visual tasks. The motivation for this discrepancy might be rooted in the lack of a fully understanding the human learning process that is featured by being resilient to task and data changes and keep increasing over time. In contrast, Artificial Neural Networks (ANN) are highly susceptible to shifts in data distribution over time, a shortcoming that hinders the development of intelligent agents that can rapidly adapt to different context and experiences. Continual Learning (CL) is a paradigm in AI that focuses on the ability of models to learn continuously over time, assimilating new knowledge while concurrently preserving and building upon previously acquired insights. Traditional AI models, when exposed to new data or tasks, often suffer from "Catastrophic Forgetting”, where the introduction of new information can overwrite previously learned knowledge, or even erase it. The essence of CL is to counteract this limitation, pioneering algorithms and strategies that empower models to seamlessly integrate new information without compromising the integrity of their existing knowledge base. Drawing inspiration from the human cognitive system’s remarkable ability to learn, adapt and remember over decades, in this thesis we aim to propose new solutions for AI systems that reflect this adaptability and long-term retention. The ambition is to help usher in a new era of AI where systems not only evolve in response to changing data landscape but also become repositories of accumulated knowledge over extended periods. We propose to address the problem of Forgetting from two perspectives. In the first part, we design new methods inspired by the human ability to draw on existing knowledge to address new challenges and devise effective solutions. Past experience serves as a valuable reservoir of insights that can be leveraged when tackling new problems. We emulate prior knowledge within a neural network by employing an auxiliary stream of data, that may encompass relevant features for both the current and subsequent tasks. Alternatively, we introduce an hybrid transfer learning approach based on a fixed pre-trained sibling network, which propagates the knowledge inherent in the source domain throughout the continual learning process. Then, we present an efficient strategy for coupling the primary classification task with an orthogonal task that guides training, yielding additional useful knowledge without the need to use external auxiliary data. In the second part of this dissertation, we present two innovative solutions, deeply inspired by cognitive theories, that attempt to replicate in artificial networks some fundamental human cognitive processes. The first approach exploits the mechanism of human visual system, showing the remarkable property of selective attention to be resistant to forgetting. This inherent robustness of the saliency prediction task, perfectly suits with the continual learning context, improving the performance of a continual classifier. Finally, we introduce a novel wake-sleep learning framework, where the phase of acquiring new knowledge from the current task (wake) alternates with a phase dedicated to consolidating and preparing for subsequent experiences (sleep). This emulation mirrors the role of dreaming in easing the learning process and enhancing the generalization capability.
13-nov-2023
Emulare l'apprendimento umano è una delle componenti fondamenti della ricerca sull'intelligenza artificiale (IA). Tuttavia, nonostante i notevoli progressi compiuti negli ultimi decenni, l'essere umano continua a ottenere performance superiori alle macchine in molti task di computer vision. La motivazione di questa discrepanza potrebbe avere origine nel fatto di non avere ancora conoscenza completa dei processi di apprendimento umano, caratterizzato dalla capacità di essere resistente ai cambiamenti ai task e ai dati, e di accrescere nel tempo. Le reti neurali artificiali (ANN), al contrario, sono altamente suscettibili ai cambiamenti nella distribuzione dei dati nel tempo, una mancanza che ostacola lo sviluppo di agenti intelligenti in grado di adattarsi rapidamente a differenti contesti ed esperienze. Il Continual Learning, (CL) è un paradigma della IA che si concentra sull'abilità dei modelli di apprendere in maniera continuata nel tempo, acquisendo nuova conoscenza e, al tempo stesso, mantenendo e ampliando le informazioni precedentemente acquisite. I modelli di AI tradizionali, quando sottoposti a nuovi dati o task, tipicamente soffrono del fenomeno del "Catastrophic Forgetting", in quanto l'introduzione di nuove informazioni da acquisire possono sovrascrivere la conoscenza precedentemente acquisita, o addirittura cancellarla. L'essenza del CL consiste nel cercare di contrastare questa limitazione, proponendo algoritmi e strategie che consentano ai modelli di integrare new conoscenza senza compromettere l'integrità della già esistente base di conoscenza. Ispirandoci alla notevole capacità del sistema cognitivo umano di apprendere, adattarsi e ricordare per decenni, in questa tesi intendiamo proporre nuove soluzioni per i sistemi di IA che riflettano questa adattabilità e conservazione a lungo termine. L'ambizione è quella di contribuire a inaugurare una nuova era dell'IA in cui i sistemi non solo si evolvono in risposta ai cambiamenti del panorama dei dati, ma diventano anche depositari della conoscenza accumulata per lunghi periodi. Proponiamo di affrontare il problema del Forgetting da due prospettive. Nella prima parte, progettiamo nuovi metodi ispirati alla capacità umana di attingere dalla conoscenza esistente per affrontare nuovi task ed elaborare soluzioni efficaci. L'esperienza passata funge da prezioso bagaglio di informazioni che possono essere sfruttate quando si affrontano nuovi problemi. Emuliamo la conoscenza pregressa all'interno di una rete neurale impiegando un flusso ausiliario di dati, che può contenere features rilevanti sia per il task corrente che per quelli successivi. In alternativa, proponiamo un approccio ibrido di Transfer Learning, basato su una rete gemella pre-addestrata, che propaga la conoscenza acquisita precedentemente durante il processo di continual learning. Successivamente presentiamo una strategia efficiente per associare il task primario di classificazione delle immagini con un task ortogonale che ne guida l'addestramento, producendo conoscenza aggiuntiva utile senza la necessità di utilizzare dati ausiliari esterni. Nella seconda parte di questa tesi, presentiamo due soluzioni innovative, largamente ispirate alle teorie cognitive, che cercano di replicare nelle reti artificiali alcuni fondamentali processi cognitivi umani. Il primo approccio sfrutta il meccanismo del sistema visivo umano, mostrando la notevole proprietà dell'attenzione selettiva di essere resistente al forgetting. Questa robustezza intrinseca del task di predizione della salienza si adatta perfettamente al contesto del continual learning, migliorando le prestazioni di un classificatore in continual. Infine, introduciamo un nuovo schema di apprendimento veglia-sonno, in cui la fase di acquisizione di nuove conoscenze del task corrente (veglia) si alterna a una fase dedicata al consolidamento e alla preparazione per le esperienze successive (sonno). Questa emulazione rispecchia il ruolo del sogno nel facilitare il processo di apprendimento e nel migliorare la capacità di generalizzazione.
Artificial Intelligence, Deep Learning, Continual Learning , Computer Vision
Intelligenza Artificiale, Continual Learning, Deep Learning, Reti Neurali Artificiali, Computer Vision
Paradigmi ispirati da scienze neurocognitive per il Continual Learning / Bellitto, Giovanni. - (2023 Nov 13).
File in questo prodotto:
File Dimensione Formato  
Giovanni_Bellitto_phd_thesis.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: PUBBLICO - Pubblico con Copyright
Dimensione 19.01 MB
Formato Adobe PDF
19.01 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.11769/581967
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact