Joint video saliency prediction for assessing driver attention to road elements for automotive [Predizione congiunta di salienza video per valutare l'attenzione del conducente agli elementi stradali per il automotive]

Moradi, Morteza

Simulating human behavior to enable machines to perceive, decide, and act with human-level intelligence has been a long-standing goal. Decades of research and development have blurred the line between imagination and reality, leading to public expectations of intelligent, and even super-intelligent, agents emerging soon in various real-life scenarios. However, realizing these expectations outside of filmmaking studios, without the aid of visual effects (VFX), is far from straightforward. While building a fully humanized machine or agent equipped with all human abilities may not be achievable in the short term, many ongoing research efforts are addressing various components essential for reaching this ambitious goal. Emulating the Human Visual System (HVS) is one of the most crucial and complex tasks in this context, with applications ranging from medical to industrial, as well as everyday life scenarios. The primary aim of developing systems that mimic the HVS is to enable machines to perceive the environment as humans do, facilitating vision-based decision-making. One of the HVS's most fascinating aspects is its ability to direct attention toward the most important areas (regions) in a visual scene. Replicating this capability, known as visual saliency (attention) prediction (VSP), has become one of the hottest topics in computer vision over the past decade. Robots, scene analysis softwares, visual reasoning systems, intelligent vehicles, and driver assistance systems are some of the domains benefiting from this simulation. In the field of intelligent transportation, assessing human attention through visual saliency estimation plays a crucial role. Studies have shown that driver inattention is one of the leading causes of road accidents, posing a serious threat to driving safety and security. Estimating drivers' visual attention, along with other non-visual factors, can help identify where drivers are looking while on the road. This information can be used in advanced driver assistance systems to provide timely alerts if drivers are unconsciously or inattentively approaching other vehicles or pedestrians. Furthermore, accurately mimicking the human visual system's attention allocation to road elements is essential for equipping driverless vehicles to perceive the environment in a way similar to humans. This, in turn, enhances driving safety and fosters greater harmony between human-driven and autonomous vehicles on the road. At the core of predicting human attention, regardless of its application, is the ability to predict saliency effectively. In essence, human (driver) visual attention assessment and saliency prediction refer to the same concept, just framed differently. Therefore, improving the performance of video saliency prediction models is the key to making the attention estimation process more efficient. The rapid increase in video data generation has propelled research toward more sophisticated classifications of visual saliency prediction. As a result, video (spatio-temporal) saliency prediction has gained significant traction alongside static (image-based) saliency prediction. This shift is also evident in the field of driver attention estimation. While early efforts predominantly focused on predicting attention based on static scene images, more recent approaches have turned to scene videos. This transition allows for a more accurate estimation of drivers' attention by accounting for the influence of additional road elements in real-time. To address the inherent challenges of video data, namely modeling spatial and temporal information and understanding their interrelationship across several frames in a video, researchers have proposed many techniques over the years. However, limitations remain, including ineffective spatio-temporal modeling of video sequences and low accuracy in visual saliency prediction and human (driver) attention modeling. In this dissertation, we approach these challenges from three perspectives, presented in three parts. First, we develop a video saliency prediction model using Vision Transformers (ViT), aligned with current research trends. The motivation behind this effort is twofold: (1) achieving state-of-the-art results while focusing more on the temporal aspects of video data by reducing unnecessary complexity and computational cost, and (2) demonstrating the limitations of ViT in capturing long-term relationships among video frames, which poses a critical challenge for enhancing VSP model performance. In the second part, for the first time in this field, we introduce and adapt video foundation models (VFMs) for designing VSP models. By modeling both long- and short-term dependencies in video data more effectively, we design two models that outperform the current leading VSP models. Focusing on harnessing the power of VFMs for the VSP task, we draw inspiration from the human brain's ability to efficiently manage information. In the final part of the dissertation, we tackle the intrinsic challenge of foundation models—namely, their excessive weights and parameter counts, by proposing two distilled models based on VFM-based VSP approaches. One serves as a general human attention prediction model, while the other is specifically examined for driver attention estimation.

Simulare il comportamento umano per permettere alle macchine di percepire, decidere e agire con un’intelligenza a livello umano è un obiettivo perseguito da tempo. Decenni di ricerca e sviluppo hanno ridotto il divario tra immaginazione e realtà, alimentando le aspettative del pubblico riguardo all'emergere di agenti intelligenti, e perfino super-intelligenti, in diversi scenari della vita reale. Tuttavia, realizzare queste aspettative al di fuori degli studi cinematografici, senza l’aiuto degli effetti visivi (VFX), è tutt'altro che semplice. Sebbene la costruzione di una macchina o di un agente pienamente umanizzato, dotato di tutte le abilità umane, possa non essere raggiungibile a breve termine, molti sforzi di ricerca sono in corso per affrontare varie componenti essenziali per raggiungere questo ambizioso obiettivo. L’emulazione del Sistema Visivo Umano (HVS) è uno dei compiti più cruciali e complessi in questo contesto, con applicazioni che spaziano dal campo medico all’industriale, fino agli scenari della vita quotidiana. L'obiettivo principale nello sviluppo di sistemi che imitano l’HVS è consentire alle macchine di percepire l'ambiente come fanno gli esseri umani, facilitando la presa di decisioni basata sulla visione. Uno degli aspetti più affascinanti dell’HVS è la sua capacità di indirizzare l’attenzione verso le aree più importanti (regioni) di una scena visiva. La riproduzione di questa capacità, nota come predizione della salienza visiva (attenzione) (VSP), è diventata uno degli argomenti più discussi nella visione artificiale dell'ultimo decennio. Robot, software di analisi delle scene, sistemi di ragionamento visivo, veicoli intelligenti e sistemi di assistenza alla guida sono alcuni dei settori che traggono beneficio da questa simulazione. Nel campo dei trasporti intelligenti, la valutazione dell'attenzione umana attraverso la stima della salienza visiva gioca un ruolo cruciale. Studi hanno dimostrato che la disattenzione del conducente è una delle principali cause di incidenti stradali, rappresentando una grave minaccia per la sicurezza stradale. Stimare l’attenzione visiva dei conducenti, insieme ad altri fattori non visivi, può aiutare a identificare dove stanno guardando mentre sono alla guida. Queste informazioni possono essere utilizzate nei sistemi avanzati di assistenza alla guida per fornire avvisi tempestivi se i conducenti si avvicinano inconsapevolmente o distrattamente ad altri veicoli o pedoni. Inoltre, riprodurre accuratamente l’allocazione dell’attenzione del sistema visivo umano verso gli elementi stradali è essenziale per dotare i veicoli autonomi della capacità di percepire l'ambiente in modo simile agli esseri umani. Ciò, a sua volta, migliora la sicurezza di guida e favorisce una maggiore armonia tra veicoli a guida umana e autonoma sulla strada. Alla base della predizione dell’attenzione umana, indipendentemente dalla sua applicazione, vi è la capacità di prevedere efficacemente la salienza. In sostanza, la valutazione dell’attenzione visiva umana (del conducente) e la predizione della salienza si riferiscono allo stesso concetto, semplicemente espresso in modi diversi. Pertanto, migliorare le prestazioni dei modelli di predizione della salienza video è la chiave per rendere più efficiente il processo di stima dell'attenzione. Il rapido aumento della generazione di dati video ha spinto la ricerca verso classificazioni più sofisticate della predizione della salienza visiva. Di conseguenza, la predizione della salienza video (spazio-temporale) ha guadagnato un’importante attenzione accanto alla predizione della salienza statica (basata su immagini). Questo cambiamento è evidente anche nel campo della stima dell'attenzione del conducente. Mentre i primi studi si concentravano principalmente sulla predizione dell’attenzione basata su immagini di scene statiche, approcci più recenti si sono rivolti ai video delle scene. Questa transizione consente una stima più accurata dell'attenzione del conducente, tenendo conto dell'influenza di elementi stradali aggiuntivi in tempo reale. Per affrontare le sfide intrinseche dei dati video, ossia la modellazione delle informazioni spaziali e temporali e la comprensione della loro interrelazione su diversi fotogrammi di un video, nel corso degli anni i ricercatori hanno proposto molte tecniche. Tuttavia, permangono limitazioni, tra cui un’efficace modellazione spazio-temporale delle sequenze video e una bassa precisione nella predizione della salienza visiva e nella modellazione dell'attenzione umana (del conducente). In questa dissertazione, affrontiamo queste sfide da tre prospettive, presentate in tre parti. In primo luogo, sviluppiamo un modello di predizione della salienza video utilizzando i Vision Transformers (ViT), in linea con le tendenze attuali della ricerca. La motivazione dietro a questo sforzo è duplice: (1) raggiungere risultati allo stato dell'arte concentrandosi maggiormente sugli aspetti temporali dei dati video riducendo la complessità e il costo computazionale inutili, e (2) dimostrare le limitazioni dei ViT nel catturare le relazioni a lungo termine tra i fotogrammi video, che rappresenta una sfida critica per migliorare le prestazioni dei modelli VSP. Nella seconda parte, per la prima volta in questo campo, introduciamo e adattiamo i modelli di base video (VFM) per la progettazione di modelli VSP. Modellando in modo più efficace le dipendenze a lungo e a breve termine nei dati video, progettiamo due modelli che superano gli attuali modelli VSP di punta. Focalizzandoci sul potere dei VFM per il compito VSP, traiamo ispirazione dalla capacità del cervello umano di gestire le informazioni in modo efficiente. Nell'ultima parte della dissertazione, affrontiamo la sfida intrinseca dei modelli di base, ossia il loro eccessivo peso e numero di parametri, proponendo due modelli distillati basati sugli approcci VSP basati su VFM. Uno funge da modello generale di predizione dell'attenzione umana, mentre l'altro è specificamente esaminato per la stima dell'attenzione del conducente.

Joint video saliency prediction for assessing driver attention to road elements for automotive [Predizione congiunta di salienza video per valutare l'attenzione del conducente agli elementi stradali per il automotive] / Moradi, Morteza. - (2025 Jul 14).