PaLM-E: il modello di intelligenza artificiale per il controllo autonomo dei robot

Google presenta il modello AI PaLM-E, un cervello robotico generalista che integra visione e linguaggio per il controllo robotico. Il modello multimodale di linguaggio visivo incarnato (VLM) con 562 miliardi di parametri è il più grande VLM mai sviluppato e può eseguire una varietà di compiti senza la necessità di riqualificazione. Il modello PaLM-E analizza i dati dalla telecamera del robot senza bisogno di una rappresentazione della scena pre-elaborata, consentendo un controllo robotico più autonomo.

Secondo Google, quando viene dato un comando di alto livello, come “portami le patatine di riso dal cassetto”, PaLM-E può generare un piano d’azione per una piattaforma robotica mobile con un braccio ed eseguire le azioni di per sé. In un video dimostrativo fornito da Google, PaLM-E esegue “portami le patatine di riso dal cassetto”, che include più passaggi di pianificazione oltre a incorporare il feedback visivo dalla videocamera del robot.

Il modello PaLM-E è resistente e può reagire al suo ambiente. Ad esempio, può guidare un robot a prendere un sacchetto di patatine da una cucina e diventa resistente alle interruzioni che potrebbero verificarsi durante l’attività. In un esempio video, un ricercatore prende i chip dal robot e li sposta, ma il robot individua i chip e li afferra di nuovo.

In un altro esempio, lo stesso modello PaLM-E controlla autonomamente un robot attraverso compiti con sequenze complesse che in precedenza richiedevano la guida umana. Il documento di ricerca di Google spiega come PaLM-E trasforma le istruzioni in azioni.

Poiché si basa su un modello linguistico, PaLM-E acquisisce osservazioni continue, come immagini o dati di sensori, e le codifica in una sequenza di vettori delle stesse dimensioni dei token linguistici. Ciò consente al modello di “capire” le informazioni sensoriali nello stesso modo in cui elabora il linguaggio.

PaLM-E è un predittore del token successivo e si chiama “PaLM-E” perché si basa sul modello LLM (large language model) esistente di Google chiamato “PaLM” (che è simile alla tecnologia alla base di ChatGPT). Google ha reso PaLM “incarnato” aggiungendo informazioni sensoriali e controllo robotico.

Il modello PaLM-E è un passo avanti nella direzione dell’intelligenza artificiale integrata nel mondo reale. Consente una maggiore autonomia ai robot, eliminando la necessità di rappresentazioni pre-elaborate della scena, e semplificando il processo di controllo del robot da parte degli esseri umani. Inoltre, grazie alla sua grande capacità e alla sua resistenza, può eseguire una vasta gamma di compiti senza la necessità di essere riqualificato.

_________
Google’s PaLM-E is a generalist robot brain that takes commands
Google’s Large Language Model Takes Control
PaLM-E: An embodied multimodal language model
PaLM-E: An Embodied Multimodal Language Model
Scaling Vision Transformers to 22 Billion Parameters
PaLM-E: An Embodied Multimodal Language Model
RT-1: Robotics Transformer for real-world control at scale

NEWS AIopenmind su:

3D (4)6G (1)Accademia di Comunicazione (1)Acer (1)Adobe (22)Aeronautica (9)Africa (2)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (3)AGID (1)Amazon (17)Ambiente (1)Android (4)Animali (6)Animazione (3)Anziani (1)App (5)Apple (30)Archeologia (3)Architettura (4)Armi (3)Arredamento interni (2)Arte (24)Assistente vocale (2)Astronomia (2)Asus (1)AT&T (1)Audio (29)Autoapprendimento (1)Avatar (3)Aviazione (1)Avvocati (2)Aziende (11)Banca (3)Bard (3)Biblioteca (1)Bill Gates (1)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (1)Calcio (2)Canva (2)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (39)Chip (2)Cina (49)Cinema (3)Claude (5)Clima (2)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (1)Compagnie aeree (1)Computer quantistici (27)Computer Vision (3)Comuni italiani (1)Comunicazione (7)Comunicazioni vocali (2)Concorso bellezza AI (1)Contabilità (1)Convegno (11)Copilot (5)Copyright (5)Criptovalute (1)Cybersecurity (1)Dalle-2 (2)Dark web (2)Dating (1)Deepfake (2)Design automobilistico (2)Design Industriale (1)Diritti Autore (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)Editing fotografico (2)Editoria (7)ENEA (2)Esercito (2)Etica (111)Europol (1)Eventi (4)Evento (7)Facebook (3)FakeNews (16)Falegnameria (1)Fauna selvatica (1)Film (2)Finanza (6)Finanziamenti Italia (3)Firefly (3)Formazione (7)Fotografia (75)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (16)Giappone (8)Giochi (5)Giornalismo (10)Giustizia (1)Google (161)Governo (7)Governo Italiano (1)Grafica (2)Guerra (10)Guida autonoma (3)Hong Kong (1)Hugging Face (2)IBM (6)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (2)Influencer (1)Informazione (6)Inghilterra (4)INPS (2)Intel (3)Istruzione (16)Jailbreaking (1)Lavoro (42)Libri (3)Linguistica computazionale (6)Linkedin (4)Maltrattamento infantile (1)Marina (1)Marketing (14)Medicina (23)Mercedes-Benz (1)Meta (39)Metaverso (15)Microsoft (108)Midjourney (11)Mobilità sostenibile (1)Moda (5)Modelli AI (1)Motori di Ricerca (2)Mozilla (2)Musica (24)Nato (1)Natura (1)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (23)Occhiali (2)Occhiali Intelligenti (1)Occhiali Smart (1)Oculistica (1)OMS (1)ONU (1)Open Source (2)OpenAI (133)Opera (3)Opera Browser (1)Oppo (2)Oracle (1)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Pianeta (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (2)Privacy (17)Programmazione (7)Prompt (5)Pubblicazione (1)Pubblicità (15)QR Code (1)Qualcomm (2)Ray-Ban (2)Realtà mista (2)Reddit (1)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (57)Ricerca scientifica (7)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (2)Robotica (29)Salute (3)Samsung (4)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

Chi Possiede le Opere Create dall’Intelligenza Artificiale?

https://www.youtube.com/watch?v=nWhVcxtvO1k Il dibattito sui diritti di utilizzo delle opere generate dall'intelligenza artificiale è diventato un tema caldo negli ultimi mesi, in particolare a causa della...

OpusClip: La Rivoluzione dell’Editing Video Generativo

OpusClip è un nuovo strumento di editing video che sta rapidamente guadagnando popolarità tra creatori e aziende. Questo tool, basato sull'intelligenza artificiale, consente di...

Mi sono imparato la scienza?

Fahrenheit.iit e il potere della narrazione. Mercoledì 13 marzo, ore 17:00 in Accademia di Comunicazione e in streaming Registrati La narrazione può essere la lama...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines