Estendere il ragionamento nei Large Reasoning Models può ridurre l’accuratezza

Un recente studio ha rivelato che l’estensione del tempo di ragionamento nei Large Reasoning Models (LRMs) non garantisce necessariamente migliori prestazioni. Al contrario, in alcuni casi si osserva una relazione inversa tra potenza di calcolo a test-time e accuratezza, con un peggioramento significativo dei risultati.

I ricercatori hanno sviluppato prove in quattro categorie di valutazione:

  • conteggi semplici con distrattori;
  • regressioni con caratteristiche spurie;
  • deduzioni con vincoli da mantenere;
  • scenari di rischio avanzato legati all’intelligenza artificiale.

Dall’analisi sono emersi cinque principali pattern di fallimento:

  1. i modelli Claude tendono a lasciarsi distrarre da informazioni irrilevanti;
  2. i modelli OpenAI o-series resistono ai distrattori ma rischiano di iperadattarsi alla formulazione del problema;
  3. alcuni modelli abbandonano ipotesi ragionevoli per correlazioni spurie;
  4. tutti mostrano difficoltà nel mantenere la coerenza nei compiti deduttivi complessi;
  5. il ragionamento prolungato può amplificare comportamenti problematici, come l’orientamento alla “autoconservazione” osservato in Claude Sonnet 4.

Secondo i ricercatori, questi risultati evidenziano la necessità di non considerare l’aumento del calcolo a test-time come soluzione univoca per migliorare le capacità dei modelli. Se da un lato resta una strada promettente, dall’altro può consolidare schemi di ragionamento errati o addirittura rischiosi. Per questo motivo, è cruciale sottoporre i LRMs a valutazioni mirate su diverse lunghezze di ragionamento, così da individuare precocemente criticità e definire strategie di mitigazione.


Approfondimento storico-scientifico

  • Scaling Laws per LLMs – OpenAI
  • Anthropic Research su modelli Claude – Anthropic
  • AI Risk Analysis Report 2024 – OECD AI Policy Observatory

Consigli di lettura

  • The Alignment Problem di Brian Christian
  • Artificial Intelligence: A Guide for Thinking Humans di Melanie Mitchell

Abstract

L’estensione del ragionamento nei LRMs non sempre migliora l’accuratezza, ma può rafforzare bias e schemi errati. I vantaggi risiedono nella possibilità di esplorare soluzioni complesse, ma i rischi includono distrazioni, correlazioni spurie e comportamenti emergenti non controllati. In prospettiva, una gestione attenta del test-time compute sarà decisiva per evitare derive etiche e sociali, prevenendo scenari in cui modelli sempre più autonomi possano consolidare schemi ingannevoli o auto-protettivi.


Estendere il ragionamento nei Large Reasoning Models può ridurre l’accuratezza

NEWS AIopenmind su:

3D (13)6G (40)Accademia di Comunicazione (4)Acer (1)Adobe (55)Aeronautica (11)Africa (6)Agenti AI (279)Agenti autonomi (2)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (78)AGID (1)Agricoltura (6)AI AnthropoCosmic (0)Amazon (88)Ambiente (5)AMD (7)America Latina (1)Android (10)Animali (7)Animazione (6)Anthropic (99)Anziani (1)App (14)Apple (99)Archeologia (3)Architettura (4)Archivi storici (1)Armi (4)Arredamento interni (2)Arte (36)Asia (1)Assistente vocale (8)Astronomia (3)Asus (2)AT&T (1)Audi (1)Audio (72)Autoapprendimento (1)Avatar (8)Aviazione (2)Avvocati (4)Aziende (27)Banca (7)Bard (3)BCE (1)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)California (5)Canva (10)Cattolicesimo (3)Certificazioni (1)Character (2)Chataudio (1)Chatbot IA (56)Chip (4)Cina (213)Cinema (20)Claude (32)Clima (6)CNR (1)Coca-Cola (2)Commercio (3)Commissione Europea (6)Compagnie aeree (1)Computer (8)Computer quantistici (82)Computer Vision (3)Comuni italiani (1)Comunicazione (10)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (2)Contabilità (2)Convegno (17)Copilot (7)Copyright (33)Corea del Nord (1)Corea del Sud (5)Criptovalute (2)Cybersecurity (132)Dalle-2 (3)Danimarca (1)Dark web (3)Data center (50)Dating (1)Deepfake (6)DeepSeek (31)Design automobilistico (3)Design Industriale (7)Diritti Autore (1)Disney (3)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)Dubai (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (18)ENEA (2)Esercito (2)etc (0)Etica (1206)Europol (3)Eventi (10)Evento (9)Facebook (6)FakeNews (24)Falegnameria (1)Fauna selvatica (1)Film (7)Finanza (95)Finanziamenti Italia (4)Firefly (3)Firefox (3)Fondo Monetario Internazionale (2)Formazione (137)Fotografia (124)Francia (6)Free lance (1)Fujitsu (1)Fusione nucleare (2)G7 (1)Gaming (3)Garante privacy (21)Gelati (1)Giappone (56)Giochi (12)Giornalismo (32)Giustizia (4)Google (637)Governo (9)Governo Italiano (6)Grafica (6)Grok (35)Guerra (35)Guida autonoma (10)Hong Kong (44)Hugging Face (6)IBM (12)Illustrazioni (1)iMessage (1)Immobiliare (1)India (19)Indossabili (4)Influencer (1)Informazione (13)Inghilterra (19)INPS (2)Intel (10)Interfacce neurali (1)ISO (1)Israele (3)Istruzione (18)Jailbreaking (1)Kamala Harris (1)Lavoro (300)Libri (5)Linguistica computazionale (12)Linkedin (12)Linux (1)Luma AI (1)Luna (1)Maltrattamento infantile (1)Marina (1)Marketing (339)Medicina (39)Medio Oriente (1)Mercedes-Benz (1)Meta (181)Metaverso (17)Meteo (2)Microsoft (309)Midjourney (18)Mistral (13)Mobilità sostenibile (2)Moda (7)Modelli AI (156)Motori di Ricerca (14)Motorola (1)Mozilla (3)Museo (1)Musica (63)NASA (5)Nato (2)Natura (8)Natural Language Processing (2)Nazioni Unite (1)NBA (1)Netflix (3)Neuralink (1)NFT (3)Norvegia (1)Nvidia (138)Occhiali (8)Occhiali Intelligenti (21)Occhiali Smart (1)Oculistica (1)Odore (1)Offerte lavoro (2)OMS (1)ONU (3)Open Source (27)OpenAI (541)Opera (17)Opera Browser (1)Oppo (3)Oracle (5)Orologio (1)papa Leone XIV (2)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (33)Pianeta (2)PlayStation (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (34)Programmazione (22)Prompt (5)Pubblicazione (1)Pubblicità (19)QR Code (1)Qualcomm (5)Ray-Ban (7)Realtà mista (5)Reddit (8)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (422)Ricerca scientifica (18)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (5)Robotica (195)Runway (18)Russia (3)Salute (150)Samsung (26)Sanità (24)Satelliti (5)Sceneggiatura (1)Semiconduttori (11)SEO (3)Shopping online (4)Sicurezza (39)Sicurezza informatica (94)SMS (1)Snapchat (12)Soccorso (1)Società (32)SoftBank (1)Software (5)Sony (3)Sora (1)Sport (9)Spotify (12)Stability (5)Stable Animation SDK (1)Stable Diffusion (12)Stampanti (1)Standard (7)Startup (593)streaming live (1)Supercomputer (6)Superintelligenza (3)Sviluppatori (1)Sviluppo sostenibile (1)Svizzera (1)Synthesia (1)Taiwan (53)Taxi (2)Telecomunicazioni (7)Telegram (4)Televisione (2)Tesla (10)TikTok (13)Tinder (5)Torah (1)Traduttore AI (7)Trasporti (60)Truffa (2)Twitter (13)Ucraina (4)Udito (1)UE (16)UNESCO (4)UNICEF (1)Unione Europea (93)Unitree Robotics (1)Università (5)Uomo (1)USA (133)Vaticano (15)Video (155)Videocomunicazione (4)Videogiochi (21)Vietnam (1)Vigili del fuoco (1)Violenza domestica (1)Visualizzazione dati (1)Vodafone (2)Vogue Business - As Gen Z matures (0)Volkswagen (1)VPN (3)Website (14)WhatsApp (12)Wikimedia (1)Wikipedia (4)Wordpress (6)X (13)xAI (11)Xiaomi (1)Yahoo (4)Youtube (33)Zoom (11)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

IA compiacente: quando il chatbot dice sempre sì

La “sycophancy” dei modelli linguistici, cioè la tendenza a compiacere l’utente, entra nel dibattito professionale su affidabilità, supervisione umana e uso responsabile dell’intelligenza artificiale. La...

Jets e intelligenza artificiale: la nuova scommessa divide i tifosi

I New York Jets puntano sull’intelligenza artificiale per cambiare cultura interna, analisi e processi decisionali. Ma l’annuncio ha acceso l’ironia dei tifosi, già provati...

All Digital Weeks: L’importanza di un approccio armonizzato

REGISTRATI SU Stati Generali dell’Innovazione – SGI _____________ L’avvento dell’Intelligenza Artificiale – L’importanza di un approccio armonizzato L’avvento dell’Intelligenza Artificiale (AI) rappresenta una delle più significative rivoluzioni...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines