Le Meraviglie e le Debolezze dei Modelli Linguistici Avanzati

I modelli di linguaggio di grandi dimensioni (LLM) sono celebrati per le loro capacità avanzate in numerose attività. Tuttavia, recenti studi hanno rivelato che questi modelli, tra cui GPT-4, Claude, Gemini e altri, mostrano gravi lacune nel ragionamento su problemi apparentemente semplici. Un esperimento ha messo alla prova i modelli con un problema di senso comune, facilmente risolvibile dagli esseri umani: “Alice ha N fratelli e M sorelle. Quante sorelle ha il fratello di Alice?”.

I risultati hanno evidenziato che la maggior parte dei modelli non solo fallisce nel rispondere correttamente, ma lo fa con eccessiva sicurezza, fornendo spiegazioni apparentemente plausibili ma in realtà prive di senso. Anche modelli avanzati come GPT-4 e Claude 3 Opus, che occasionalmente risolvono correttamente il problema, mostrano fallimenti frequenti. Quando il problema è stato reso più complesso, i tassi di successo sono crollati quasi a zero.

Questo fenomeno solleva dubbi sulla reale capacità di ragionamento di questi modelli, nonostante le alte prestazioni in altre attività complesse. Le spiegazioni fornite dai modelli spesso confabulano ragionamenti inesatti, inducendo in errore gli utenti. Tentativi di correggere gli errori attraverso vari interventi, come il prompting migliorato, non hanno prodotto risultati migliori.

La comunità scientifica è ora chiamata a rivedere le capacità dichiarate di questi modelli e a sviluppare nuovi benchmark per identificare e affrontare queste carenze di ragionamento. Solo attraverso un’analisi approfondita e collaborativa sarà possibile migliorare lo stato attuale e guidare lo sviluppo di modelli di linguaggio che possano veramente eccellere in tutte le sfide poste.

____
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

NEWS AIopenmind su:

3D (6)6G (1)Accademia di Comunicazione (4)Acer (1)Adobe (39)Aeronautica (9)Africa (3)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (5)AGID (1)Amazon (34)Ambiente (2)AMD (1)Android (6)Animali (6)Animazione (4)Anthropic (8)Anziani (1)App (10)Apple (57)Archeologia (3)Architettura (4)Archivi storici (1)Armi (3)Arredamento interni (2)Arte (27)Assistente vocale (6)Astronomia (2)Asus (2)AT&T (1)Audi (1)Audio (52)Autoapprendimento (1)Avatar (7)Aviazione (1)Avvocati (2)Aziende (18)Banca (3)Bard (3)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)Canva (6)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (49)Chip (3)Cina (52)Cinema (8)Claude (17)Clima (3)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (2)Compagnie aeree (1)Computer (3)Computer quantistici (31)Computer Vision (3)Comuni italiani (1)Comunicazione (9)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (1)Contabilità (1)Convegno (13)Copilot (5)Copyright (14)Criptovalute (1)Cybersecurity (1)Dalle-2 (3)Dark web (2)Data center (1)Dating (1)Deepfake (2)Design automobilistico (2)Design Industriale (6)Diritti Autore (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (10)Email (1)ENEA (2)Esercito (2)Etica (127)Europol (1)Eventi (7)Evento (7)Facebook (4)FakeNews (18)Falegnameria (1)Fauna selvatica (1)Film (5)Finanza (9)Finanziamenti Italia (3)Firefly (3)Firefox (1)Fondo Monetario Internazionale (1)Formazione (14)Fotografia (110)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (19)Giappone (9)Giochi (7)Giornalismo (12)Giustizia (1)Google (272)Governo (7)Governo Italiano (3)Grafica (5)Guerra (12)Guida autonoma (5)Hong Kong (1)Hugging Face (3)IBM (7)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (3)Influencer (1)Informazione (9)Inghilterra (7)INPS (2)Intel (7)ISO (1)Istruzione (16)Jailbreaking (1)Kamala Harris (1)Lavoro (44)Libri (3)Linguistica computazionale (7)Linkedin (8)Linux (1)Luma AI (1)Maltrattamento infantile (1)Marina (1)Marketing (67)Medicina (26)Mercedes-Benz (1)Meta (73)Metaverso (17)Microsoft (169)Midjourney (17)Mobilità sostenibile (1)Moda (5)Modelli AI (37)Motori di Ricerca (11)Mozilla (2)Musica (35)NASA (1)Nato (2)Natura (2)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (34)Occhiali (7)Occhiali Intelligenti (2)Occhiali Smart (1)Oculistica (1)OMS (1)ONU (1)Open Source (2)OpenAI (227)Opera (11)Opera Browser (1)Oppo (3)Oracle (2)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (5)Pianeta (2)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (25)Programmazione (10)Prompt (5)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

Google DeepMind e Hugging Face Lanciano SynthID: Più Fiducia nel Contenuto Digitale

Google DeepMind e Hugging Face hanno lanciato SynthID Text, una nuova tecnologia che consente di identificare i contenuti generati dall’intelligenza artificiale. Rilasciata nella versione...

Rivoluzionare la Vendita: L’Era dell’Intelligenza Artificiale con Salesloft

Nel panorama competitivo attuale, le aziende sono sempre più alla ricerca di strumenti che possano ottimizzare i loro processi di vendita e migliorare l'esperienza...

Mi sono imparato la scienza?

Fahrenheit.iit e il potere della narrazione. Mercoledì 13 marzo, ore 17:00 in Accademia di Comunicazione e in streaming Registrati La narrazione può essere la lama...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines