Anche l’élite mondiale dell’intelligenza artificiale può sbagliare. Un’analisi di GPTZero sui paper accettati a NeurIPS 2025 rivela la presenza di citazioni inventate generate da LLM, riaprendo il dibattito sull’affidabilità dei processi di revisione scientifica nell’era dell’IA.
La prestigiosa conferenza NeurIPS, punto di riferimento globale per la ricerca su machine learning e intelligenza artificiale, è finita al centro di una controversia. La startup GPTZero, specializzata nel rilevamento di contenuti generati da IA, ha esaminato 4.841 articoli accettati all’edizione 2025 di San Diego, individuando 100 citazioni allucinatorie in 51 paper. Le citazioni sono state verificate come inesistenti, secondo quanto dichiarato dall’azienda a TechCrunch.
Dal punto di vista statistico, il fenomeno appare marginale: 51 articoli rappresentano circa l’1,1% del totale, su decine di migliaia di riferimenti complessivi. Tuttavia, come ha sottolineato la stessa NeurIPS a Fortune, “la presenza di riferimenti errati non invalida necessariamente il contenuto scientifico degli articoli”. Ciò non elimina, però, il problema di fondo.
Le citazioni costituiscono una vera e propria valuta accademica: misurano impatto, autorevolezza e progressione di carriera. Se generate artificialmente, ne compromettono il valore sistemico. La revisione paritaria, pilastro della credibilità scientifica, è oggi sottoposta a una pressione senza precedenti: migliaia di sottomissioni, tempi ristretti e crescente uso di strumenti generativi.
Nel suo report, GPTZero parla di uno “tsunami di sottomissioni” che sta portando i processi di peer review “fino al punto di rottura”. La startup cita anche lo studio accademico “The AI Conference Peer Review Crisis” (maggio 2025), che denuncia una crisi strutturale nei grandi eventi scientifici, inclusa NeurIPS.
Il paradosso è evidente: se persino i massimi esperti di IA non riescono a garantire l’accuratezza delle citazioni prodotte con LLM, quale livello di fiducia può aspettarsi il resto della comunità scientifica?
Approfondimento – Cronologia essenziale
- Maggio 2025 – Pubblicazione di The AI Conference Peer Review Crisis
https://arxiv.org - Dicembre 2025 – NeurIPS 2025, San Diego
https://neurips.cc - Gennaio 2026 – GPTZero pubblica l’analisi su 4.841 paper
https://gptzero.me - Gennaio 2026 – TechCrunch e Fortune riportano il caso
https://techcrunch.com
https://fortune.com
Consigli di approfondimento
- NeurIPS Code of Ethics: https://neurips.cc
- OpenAI – Limiti degli LLM: https://openai.com/research
- COPE (Committee on Publication Ethics): https://publicationethics.org
Abstract – Pro, rischi e conseguenze
Pro: velocità nella scrittura, supporto alla ricerca, riduzione del carico operativo.
Rischi: erosione della fiducia, inquinamento delle metriche accademiche, diffusione di fonti inesistenti.
Conseguenze future: possibile riforma della peer review, uso di sistemi di verifica automatica e nuove linee guida etiche sull’uso degli LLM nella ricerca.







