Robot domestici: il test PARTNR svela le debolezze dell’AI nel lavoro di squadra

Un nuovo benchmark, denominato PARTNR (Planning And Reasoning Tasks in human-Robot collaboration), punta a rivoluzionare lo studio dell’interazione tra esseri umani e intelligenza artificiale in contesti domestici. Presentato il 31 ottobre 2024, il progetto si propone di analizzare le capacità di pianificazione e ragionamento degli agenti AI nelle attività quotidiane, mettendo alla prova i limiti della tecnologia attuale.

Il dataset PARTNR include 100.000 task in linguaggio naturale, simulando situazioni reali con vincoli spaziali, temporali e di capacità degli agenti. Il benchmark copre 60 ambienti domestici e 5.819 oggetti unici, utilizzando un processo semi-automatico basato su Large Language Models (LLM) e simulazione per garantire la validità dei test.

I risultati ottenuti evidenziano ancora notevoli criticità nei modelli AI all’avanguardia. Quando affiancati a un essere umano, gli LLM impiegano 1,5 volte più passaggi rispetto a una collaborazione tra due persone e 1,1 volte più passaggirispetto a un singolo individuo. Le difficoltà principali riguardano la gestione del coordinamento, il monitoraggio delle attività e la capacità di recupero dagli errori.

Un aspetto rilevante dello studio dimostra che LLM di dimensioni più contenute, ottimizzati con dati specifici di pianificazione, possono raggiungere prestazioni comparabili a modelli nove volte più grandi, con un’inferenza 8,6 volte più veloce. Questi risultati suggeriscono margini di miglioramento significativi per l’AI nella collaborazione uomo-robot, ponendo PARTNR come una risorsa chiave per la ricerca futura.

NEWS AIopenmind su:

3D (13)6G (9)Accademia di Comunicazione (4)Acer (1)Adobe (45)Aeronautica (11)Africa (3)Agenti AI (61)Agenti autonomi (1)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (16)AGID (1)Agricoltura (2)Amazon (56)Ambiente (4)AMD (3)Android (7)Animali (7)Animazione (6)Anthropic (47)Anziani (1)App (13)Apple (85)Archeologia (3)Architettura (4)Archivi storici (1)Armi (4)Arredamento interni (2)Arte (31)Assistente vocale (8)Astronomia (2)Asus (2)AT&T (1)Audi (1)Audio (68)Autoapprendimento (1)Avatar (8)Aviazione (1)Avvocati (3)Aziende (27)Banca (5)Bard (3)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)California (1)Canva (7)Cattolicesimo (3)Certificazioni (1)Chataudio (1)Chatbot IA (55)Chip (4)Cina (101)Cinema (11)Claude (22)Clima (5)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (2)Compagnie aeree (1)Computer (8)Computer quantistici (50)Computer Vision (3)Comuni italiani (1)Comunicazione (10)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (1)Contabilità (2)Convegno (16)Copilot (7)Copyright (28)Criptovalute (2)Cybersecurity (11)Dalle-2 (3)Dark web (3)Data center (19)Dating (1)Deepfake (3)DeepSeek (29)Design automobilistico (3)Design Industriale (6)Diritti Autore (1)Disney (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (15)ENEA (2)Esercito (2)Etica (238)Europol (3)Eventi (9)Evento (9)Facebook (4)FakeNews (22)Falegnameria (1)Fauna selvatica (1)Film (6)Finanza (29)Finanziamenti Italia (4)Firefly (3)Firefox (1)Fondo Monetario Internazionale (1)Formazione (49)Fotografia (120)Francia (6)Free lance (1)G7 (1)Gaming (3)Garante privacy (21)Giappone (17)Giochi (10)Giornalismo (24)Giustizia (3)Google (431)Governo (7)Governo Italiano (3)Grafica (6)Grok (7)Guerra (17)Guida autonoma (8)Hong Kong (8)Hugging Face (6)IBM (9)Illustrazioni (1)iMessage (1)Immobiliare (1)India (7)Indossabili (4)Influencer (1)Informazione (10)Inghilterra (14)INPS (2)Intel (9)ISO (1)Israele (1)Istruzione (17)Jailbreaking (1)Kamala Harris (1)Lavoro (81)Libri (3)Linguistica computazionale (12)Linkedin (9)Linux (1)Luma AI (1)Luna (1)Maltrattamento infantile (1)Marina (1)Marketing (133)Medicina (36)Mercedes-Benz (1)Meta (134)Metaverso (17)Meteo (1)Microsoft (235)Midjourney (18)Mistral (13)Mobilità sostenibile (2)Moda (6)Modelli AI (144)Motori di Ricerca (14)Mozilla (3)Museo (1)Musica (44)NASA (1)Nato (2)Natura (6)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Norvegia (1)Nvidia (76)Occhiali (7)Occhiali Intelligenti (2)Occhiali Smart (1)Oculistica (1)Odore (1)Offerte lavoro (2)OMS (1)ONU (1)Open Source (15)OpenAI (358)Opera (15)Opera Browser (1)Oppo (3)Oracle (3)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (19)Pianeta (2)PlayStation (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (34)Programmazione (16)Prompt (5)Pubblicazione (1)Pubblicità (19)QR Code (1)Qualcomm (5)Ray-Ban (7)Realtà mista (4)Reddit (7)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (138)Ricerca scientifica (16)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (5)Robotica (82)Runway (13)Salute (25)Samsung (15)Sanità (19)Satelliti (3)Sceneggiatura (1)Semiconduttori (3)SEO (3)Shopping online (4)Sicurezza (31)Sicurezza informatica (90)SMS (1)Snapchat (11)Soccorso (1)Società (15)SoftBank (1)Software (5)Sony (2)Sora (1)Sport (3)Spotify (7)Stability (5)Stable Animation SDK (1)Stable Diffusion (12)Stampanti (1)Standard (4)Startup (520)streaming live (1)Supercomputer (6)Superintelligenza (3)Sviluppatori (1)Sviluppo sostenibile (1)Synthesia (1)Taiwan (13)Taxi (2)Telecomunicazioni (7)Telegram (3)Televisione (1)Tesla (10)TikTok (12)Torah (1)Traduttore AI (7)Trasporti (12)Truffa (2)Twitter (13)Ucraina (3)Udito (1)UE (13)UNESCO (3)UNICEF (1)Unione Europea (32)Università (5)Uomo (1)USA (82)Vaticano (5)Video (144)Videocomunicazione (4)Videogiochi (12)Vigili del fuoco (1)Violenza domestica (1)Visualizzazione dati (1)Vodafone (1)Vogue Business - As Gen Z matures (0)Volkswagen (1)VPN (3)Website (14)WhatsApp (11)Wikipedia (2)Wordpress (3)X (13)xAI (9)Xiaomi (1)Yahoo (3)Youtube (20)Zoom (7)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

Gemini analizza lo schermo dello smartphone per risposte più mirate

Google potenzia Gemini con una funzione che interpreta ciò che appare sullo schermo Con un aggiornamento significativo, Google ha introdotto la possibilità per Gemini di...

#COMPUTERQUANTISTICO #weeklynews 23/3/2025 Cineca ospita IQM Radiance 54

Quantum computing in Italia: Cineca ospita IQM Radiance 54, il computer quantistico più potente. Le 10 notizie principali Cineca e IQM: il più potente computer quantistico...

Brave Search integrata nel server MCP per ricerche web intelligenti

Brave Search integrato nel server MCP offre ricerche web e locali rapide e filtrabili. Brave Search integrato nel server MCP per ricerche web intelligentiIl team...

All Digital Weeks: L’importanza di un approccio armonizzato

REGISTRATI SU Stati Generali dell’Innovazione – SGI _____________ L’avvento dell’Intelligenza Artificiale – L’importanza di un approccio armonizzato L’avvento dell’Intelligenza Artificiale (AI) rappresenta una delle più significative rivoluzioni...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines