Le Meraviglie e le Debolezze dei Modelli Linguistici Avanzati

I modelli di linguaggio di grandi dimensioni (LLM) sono celebrati per le loro capacità avanzate in numerose attività. Tuttavia, recenti studi hanno rivelato che questi modelli, tra cui GPT-4, Claude, Gemini e altri, mostrano gravi lacune nel ragionamento su problemi apparentemente semplici. Un esperimento ha messo alla prova i modelli con un problema di senso comune, facilmente risolvibile dagli esseri umani: “Alice ha N fratelli e M sorelle. Quante sorelle ha il fratello di Alice?”.

I risultati hanno evidenziato che la maggior parte dei modelli non solo fallisce nel rispondere correttamente, ma lo fa con eccessiva sicurezza, fornendo spiegazioni apparentemente plausibili ma in realtà prive di senso. Anche modelli avanzati come GPT-4 e Claude 3 Opus, che occasionalmente risolvono correttamente il problema, mostrano fallimenti frequenti. Quando il problema è stato reso più complesso, i tassi di successo sono crollati quasi a zero.

Questo fenomeno solleva dubbi sulla reale capacità di ragionamento di questi modelli, nonostante le alte prestazioni in altre attività complesse. Le spiegazioni fornite dai modelli spesso confabulano ragionamenti inesatti, inducendo in errore gli utenti. Tentativi di correggere gli errori attraverso vari interventi, come il prompting migliorato, non hanno prodotto risultati migliori.

La comunità scientifica è ora chiamata a rivedere le capacità dichiarate di questi modelli e a sviluppare nuovi benchmark per identificare e affrontare queste carenze di ragionamento. Solo attraverso un’analisi approfondita e collaborativa sarà possibile migliorare lo stato attuale e guidare lo sviluppo di modelli di linguaggio che possano veramente eccellere in tutte le sfide poste.

____
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

NEWS AIopenmind su:

3D (5)6G (1)Accademia di Comunicazione (1)Acer (1)Adobe (28)Aeronautica (9)Africa (2)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (4)AGID (1)Amazon (24)Ambiente (1)AMD (1)Android (5)Animali (6)Animazione (4)Anthropic (1)Anziani (1)App (6)Apple (45)Archeologia (3)Architettura (4)Armi (3)Arredamento interni (2)Arte (26)Assistente vocale (3)Astronomia (2)Asus (1)AT&T (1)Audi (1)Audio (40)Autoapprendimento (1)Avatar (3)Aviazione (1)Avvocati (2)Aziende (13)Banca (3)Bard (3)Biblioteca (1)Bill Gates (1)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)Canva (3)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (41)Chip (3)Cina (51)Cinema (4)Claude (11)Clima (3)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (1)Compagnie aeree (1)Computer (2)Computer quantistici (30)Computer Vision (3)Comuni italiani (1)Comunicazione (9)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (1)Contabilità (1)Convegno (13)Copilot (5)Copyright (9)Criptovalute (1)Cybersecurity (1)Dalle-2 (2)Dark web (2)Dating (1)Deepfake (2)Design automobilistico (2)Design Industriale (6)Diritti Autore (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (2)Editoria (8)Email (1)ENEA (2)Esercito (2)Etica (116)Europol (1)Eventi (4)Evento (7)Facebook (3)FakeNews (18)Falegnameria (1)Fauna selvatica (1)Film (2)Finanza (7)Finanziamenti Italia (3)Firefly (3)Fondo Monetario Internazionale (1)Formazione (10)Fotografia (88)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (18)Giappone (8)Giochi (5)Giornalismo (10)Giustizia (1)Google (206)Governo (7)Governo Italiano (1)Grafica (5)Guerra (12)Guida autonoma (3)Hong Kong (1)Hugging Face (3)IBM (6)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (2)Influencer (1)Informazione (8)Inghilterra (4)INPS (2)Intel (5)ISO (1)Istruzione (16)Jailbreaking (1)Lavoro (43)Libri (3)Linguistica computazionale (7)Linkedin (6)Maltrattamento infantile (1)Marina (1)Marketing (37)Medicina (23)Mercedes-Benz (1)Meta (48)Metaverso (15)Microsoft (134)Midjourney (11)Mobilità sostenibile (1)Moda (5)Modelli AI (18)Motori di Ricerca (3)Mozilla (2)Musica (31)Nato (2)Natura (1)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (29)Occhiali (2)Occhiali Intelligenti (1)Occhiali Smart (1)Oculistica (1)OMS (1)ONU (1)Open Source (2)OpenAI (181)Opera (8)Opera Browser (1)Oppo (3)Oracle (2)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (2)Pianeta (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (2)Privacy (19)Programmazione (10)Prompt (5)Pubblicazione (1)Pubblicità (17)QR Code (1)Qualcomm (3)Ray-Ban (2)Realtà mista (3)Reddit (3)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

CoSAI: La Nuova Frontiera della Sicurezza nell’AI 

Al Forum di Sicurezza di Aspen è stata annunciata la nascita della Coalition for Secure AI (CoSAI), una nuova iniziativa open-source ospitata dal consorzio...

Domina il Tuo Prossimo Colloquio di Lavoro con Interviewsby.ai

Interviewsby.ai è la nuova piattaforma che sta trasformando il modo in cui i candidati si preparano per i colloqui di lavoro. Creata da Jake...

Mi sono imparato la scienza?

Fahrenheit.iit e il potere della narrazione. Mercoledì 13 marzo, ore 17:00 in Accademia di Comunicazione e in streaming Registrati La narrazione può essere la lama...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines