I grandi modelli linguistici (LLM), alla base di strumenti come ChatGPT o Gemini, spesso producono affermazioni plausibili ma errate, note come “allucinazioni”. Un recente studio firmato da Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala ed Edwin Zhang spiega le ragioni statistiche e metodologiche di questo fenomeno, evidenziando implicazioni etiche e possibili rimedi.
Gli autori paragonano i LLM a studenti di fronte a domande d’esame complesse: quando non conoscono la risposta, tendono a “tirare a indovinare” invece di ammettere incertezza. Questa dinamica non è casuale: deriva dalle procedure di addestramento e valutazione che premiano la capacità di fornire un’ipotesi coerente piuttosto che riconoscere i limiti della conoscenza.
Dal punto di vista tecnico, le allucinazioni emergono come errori nella classificazione binaria. Se un modello non riesce a distinguere nettamente tra affermazioni corrette ed errate, le pressioni statistiche naturali del processo di addestramento porteranno inevitabilmente a produrre contenuti fuorvianti. A peggiorare il quadro contribuisce il sistema di valutazione attuale: i benchmark dominanti incoraggiano i modelli a sembrare sicuri anche quando non lo sono.
Gli studiosi sostengono che la soluzione non passi solo da nuove metriche sulle allucinazioni, ma da una revisione socio-tecnica più profonda: occorre riformare i criteri di valutazione premiando la trasparenza e il riconoscimento dell’incertezza. Un cambiamento che potrebbe ridurre le distorsioni cognitive artificiali e aumentare la fiducia negli strumenti di IA.
Approfondimento cronologico
- 2019-2020: Emergenza del termine hallucinations nei primi studi su GPT-2 e GPT-3.
- 2022: Prime ricerche sistematiche sull’affidabilità delle risposte di LLM (MIT, Stanford).
- 2023: Cresce l’attenzione accademica e industriale, con OpenAI e Anthropic che introducono “AI alignment” e “red teaming”.
- 2024-2025: Studi come quello di Kalai et al. evidenziano la necessità di ripensare i benchmark.
Fonti:
- Stanford HAI
- MIT CSAIL
- OpenAI blog
Consigli di approfondimento
- Analisi di Yoshua Bengio sulle illusioni cognitive delle IA – Université de Montréal
- Rapporto OCSE sull’affidabilità dell’IA – OECD.AI
Abstract etico-sociale
Le allucinazioni dei modelli linguistici rappresentano un rischio significativo per la fiducia pubblica e l’affidabilità delle informazioni. Se da un lato la capacità di “indovinare” aumenta la fluidità della conversazione, dall’altro espone a disinformazione e bias cognitivi. La sfida etica consiste nel bilanciare accuratezza e creatività: senza un cambio di paradigma nei benchmark e nelle metriche di valutazione, il rischio è che i sistemi continuino a privilegiare la performance a scapito della veridicità, con conseguenze sociali sull’informazione, l’educazione e la democrazia.







