PaLM-E: il modello di intelligenza artificiale per il controllo autonomo dei robot

Google presenta il modello AI PaLM-E, un cervello robotico generalista che integra visione e linguaggio per il controllo robotico. Il modello multimodale di linguaggio visivo incarnato (VLM) con 562 miliardi di parametri è il più grande VLM mai sviluppato e può eseguire una varietà di compiti senza la necessità di riqualificazione. Il modello PaLM-E analizza i dati dalla telecamera del robot senza bisogno di una rappresentazione della scena pre-elaborata, consentendo un controllo robotico più autonomo.

Secondo Google, quando viene dato un comando di alto livello, come “portami le patatine di riso dal cassetto”, PaLM-E può generare un piano d’azione per una piattaforma robotica mobile con un braccio ed eseguire le azioni di per sé. In un video dimostrativo fornito da Google, PaLM-E esegue “portami le patatine di riso dal cassetto”, che include più passaggi di pianificazione oltre a incorporare il feedback visivo dalla videocamera del robot.

Il modello PaLM-E è resistente e può reagire al suo ambiente. Ad esempio, può guidare un robot a prendere un sacchetto di patatine da una cucina e diventa resistente alle interruzioni che potrebbero verificarsi durante l’attività. In un esempio video, un ricercatore prende i chip dal robot e li sposta, ma il robot individua i chip e li afferra di nuovo.

In un altro esempio, lo stesso modello PaLM-E controlla autonomamente un robot attraverso compiti con sequenze complesse che in precedenza richiedevano la guida umana. Il documento di ricerca di Google spiega come PaLM-E trasforma le istruzioni in azioni.

Poiché si basa su un modello linguistico, PaLM-E acquisisce osservazioni continue, come immagini o dati di sensori, e le codifica in una sequenza di vettori delle stesse dimensioni dei token linguistici. Ciò consente al modello di “capire” le informazioni sensoriali nello stesso modo in cui elabora il linguaggio.

PaLM-E è un predittore del token successivo e si chiama “PaLM-E” perché si basa sul modello LLM (large language model) esistente di Google chiamato “PaLM” (che è simile alla tecnologia alla base di ChatGPT). Google ha reso PaLM “incarnato” aggiungendo informazioni sensoriali e controllo robotico.

Il modello PaLM-E è un passo avanti nella direzione dell’intelligenza artificiale integrata nel mondo reale. Consente una maggiore autonomia ai robot, eliminando la necessità di rappresentazioni pre-elaborate della scena, e semplificando il processo di controllo del robot da parte degli esseri umani. Inoltre, grazie alla sua grande capacità e alla sua resistenza, può eseguire una vasta gamma di compiti senza la necessità di essere riqualificato.

_________
Google’s PaLM-E is a generalist robot brain that takes commands
Google’s Large Language Model Takes Control
PaLM-E: An embodied multimodal language model
PaLM-E: An Embodied Multimodal Language Model
Scaling Vision Transformers to 22 Billion Parameters
PaLM-E: An Embodied Multimodal Language Model
RT-1: Robotics Transformer for real-world control at scale

NEWS AIopenmind su:

3D (4)6G (1)Accademia di Comunicazione (1)Adobe (17)Aeronautica (8)Africa (2)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (2)AGID (1)Amazon (13)Ambiente (1)Android (3)Animali (6)Animazione (3)Anziani (1)App (5)Apple (26)Archeologia (3)Architettura (3)Armi (3)Arredamento interni (1)Arte (24)Assistente vocale (1)Astronomia (2)AT&T (1)Audio (27)Autoapprendimento (1)Avatar (2)Aviazione (1)Avvocati (2)Aziende (10)Banca (3)Bard (3)Biblioteca (1)Bill Gates (1)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (1)Calcio (2)Canva (1)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (30)Chip (2)Cina (48)Cinema (3)Claude (4)Clima (2)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (1)Compagnie aeree (1)Computer quantistici (27)Computer Vision (3)Comuni italiani (1)Comunicazione (6)Comunicazioni vocali (2)Contabilità (1)Convegno (10)Copilot (4)Copyright (5)Criptovalute (1)Cybersecurity (1)Dalle-2 (1)Dark web (2)Dating (1)Deepfake (2)Design automobilistico (2)Design Industriale (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)Editing fotografico (2)Editoria (7)ENEA (2)Esercito (2)Etica (109)Europol (1)Eventi (4)Evento (7)Facebook (3)FakeNews (15)Falegnameria (1)Fauna selvatica (1)Film (2)Finanza (6)Finanziamenti Italia (2)Firefly (3)Formazione (6)Fotografia (65)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (15)Giappone (8)Giochi (5)Giornalismo (10)Giustizia (1)Google (150)Governo (7)Grafica (2)Guerra (8)Guida autonoma (3)Hong Kong (1)IBM (5)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (1)Influencer (1)Informazione (6)Inghilterra (2)INPS (1)Intel (3)Istruzione (15)Lavoro (41)Libri (2)Linguistica computazionale (6)Linkedin (3)Maltrattamento infantile (1)Marina (1)Marketing (14)Medicina (21)Mercedes-Benz (1)Meta (32)Metaverso (15)Microsoft (93)Midjourney (10)Mobilità sostenibile (1)Moda (5)Motori di Ricerca (2)Mozilla (2)Musica (20)Nato (1)Natura (1)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (21)Occhiali (2)Occhiali Intelligenti (1)Occhiali Smart (1)Oculistica (1)OMS (1)ONU (1)Open Source (1)OpenAI (123)Opera (2)Opera Browser (1)Oppo (1)Oracle (1)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Pianeta (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (2)Privacy (16)Programmazione (7)Prompt (5)Pubblicazione (1)Pubblicità (13)QR Code (1)Qualcomm (1)Ray-Ban (1)Realtà mista (2)Reddit (1)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (46)Ricerca scientifica (7)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (2)Robotica (27)Salute (3)Samsung (3)Sanità (14)Satelliti (2)Sceneggiatura (1)Semiconduttori (2)SEO (1)Shopping online (1)Sicurezza (15)Sicurezza informatica (34)SMS (1)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

Verso un Mondo Quantico: Google, GESDA e XPRIZE insieme per affrontare le sfide del domani

https://www.youtube.com/watch?v=XLBIJk6AXjg Google Quantum AI e Google.org si uniscono a XPRIZE e al Geneva Science and Diplomacy Anticipator (GESDA) per lanciare XPRIZE Quantum Applications, una competizione...

La sfida delle parole: duello tra modelli linguistici su Chatbot Arena

Nella frenetica corsa verso l'avanzamento tecnologico, una nuova arena digitale ha catturato l'attenzione degli esperti del settore. Si tratta di "Chatbot Arena", una piattaforma...

Mi sono imparato la scienza?

Fahrenheit.iit e il potere della narrazione. Mercoledì 13 marzo, ore 17:00 in Accademia di Comunicazione e in streaming Registrati La narrazione può essere la lama...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines