Gecko per Valutare la Generazione Testo-Immagine

Un recente studio condotto da Google DeepMind, dal titolo “Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings”, ha portato alla luce importanti scoperte nell’ambito della generazione di immagini da testo, conosciuta anche come Text-to-Image (T2I). La ricerca rivela che, nonostante i progressi significativi nel campo, i modelli T2I spesso non riescono a produrre immagini che corrispondano accuratamente ai prompt forniti.

Il team di ricerca ha sviluppato un nuovo benchmark chiamato Gecko2K per affrontare questa problematica, con lo scopo di testare in modo più preciso l’allineamento tra testo e immagine. Gecko2K è composto da due subset, Gecko(R) e Gecko(S), ognuno dei quali è progettato per valutare diverse abilità dei modelli. Questo nuovo benchmark introduce un sistema basato sulle competenze, in cui i prompt sono categorizzati in base alle abilità necessarie per interpretarli correttamente.

Lo studio ha coinvolto quattro modelli T2I e raccolto oltre 100.000 annotazioni attraverso diversi template e test di valutazione, offrendo una visione più approfondita delle sfide relative all’allineamento tra testo e immagine. Una delle principali innovazioni è stata l’introduzione di una nuova metrica di valutazione basata su questionari (QA), che si è dimostrata meglio correlata con le valutazioni umane rispetto ai precedenti metodi.

I ricercatori hanno inoltre evidenziato l’importanza di avere prompt ben definiti, poiché essi giocano un ruolo cruciale nella valutazione delle capacità dei modelli T2I. Gecko2K fornisce un set di prompt più ampio e diversificato, che permette ai ricercatori di comprendere meglio le sfide legate alla generazione di immagini da testo.

Con la pubblicazione di Gecko2K, Google DeepMind mira a migliorare la valutazione dei modelli T2I, offrendo alla comunità un nuovo strumento per la ricerca e lo sviluppo di soluzioni più precise e affidabili.

_____
Revisiting Text-to-Image Evaluation with Gecko : On Metrics, Prompts, and Human Ratings

NEWS AIopenmind su:

3D (13)6G (35)Accademia di Comunicazione (4)Acer (1)Adobe (53)Aeronautica (11)Africa (6)Agenti AI (211)Agenti autonomi (1)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (62)AGID (1)Agricoltura (6)Amazon (83)Ambiente (5)AMD (6)America Latina (1)Android (8)Animali (7)Animazione (6)Anthropic (78)Anziani (1)App (13)Apple (96)Archeologia (3)Architettura (4)Archivi storici (1)Armi (4)Arredamento interni (2)Arte (36)Asia (1)Assistente vocale (8)Astronomia (3)Asus (2)AT&T (1)Audi (1)Audio (72)Autoapprendimento (1)Avatar (8)Aviazione (1)Avvocati (4)Aziende (27)Banca (7)Bard (3)BCE (1)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)California (5)Canva (10)Cattolicesimo (3)Certificazioni (1)Character (2)Chataudio (1)Chatbot IA (56)Chip (4)Cina (176)Cinema (18)Claude (29)Clima (6)CNR (1)Coca-Cola (2)Commercio (3)Commissione Europea (6)Compagnie aeree (1)Computer (8)Computer quantistici (68)Computer Vision (3)Comuni italiani (1)Comunicazione (10)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (2)Contabilità (2)Convegno (17)Copilot (7)Copyright (33)Corea del Nord (1)Corea del Sud (5)Criptovalute (2)Cybersecurity (84)Dalle-2 (3)Danimarca (1)Dark web (3)Data center (46)Dating (1)Deepfake (6)DeepSeek (30)Design automobilistico (3)Design Industriale (7)Diritti Autore (1)Disney (3)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)Dubai (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (18)ENEA (2)Esercito (2)etc (0)Etica (860)Europol (3)Eventi (10)Evento (9)Facebook (4)FakeNews (24)Falegnameria (1)Fauna selvatica (1)Film (7)Finanza (66)Finanziamenti Italia (4)Firefly (3)Firefox (3)Fondo Monetario Internazionale (2)Formazione (103)Fotografia (124)Francia (6)Free lance (1)Fujitsu (1)Fusione nucleare (2)G7 (1)Gaming (3)Garante privacy (21)Gelati (1)Giappone (41)Giochi (12)Giornalismo (29)Giustizia (4)Google (608)Governo (9)Governo Italiano (6)Grafica (6)Grok (29)Guerra (24)Guida autonoma (10)Hong Kong (30)Hugging Face (6)IBM (12)Illustrazioni (1)iMessage (1)Immobiliare (1)India (16)Indossabili (4)Influencer (1)Informazione (13)Inghilterra (18)INPS (2)Intel (9)Interfacce neurali (1)ISO (1)Israele (3)Istruzione (18)Jailbreaking (1)Kamala Harris (1)Lavoro (208)Libri (5)Linguistica computazionale (12)Linkedin (12)Linux (1)Luma AI (1)Luna (1)Maltrattamento infantile (1)Marina (1)Marketing (288)Medicina (38)Medio Oriente (1)Mercedes-Benz (1)Meta (172)Metaverso (17)Meteo (2)Microsoft (301)Midjourney (18)Mistral (13)Mobilità sostenibile (2)Moda (7)Modelli AI (156)Motori di Ricerca (14)Motorola (1)Mozilla (3)Museo (1)Musica (60)NASA (5)Nato (2)Natura (8)Natural Language Processing (2)Nazioni Unite (1)NBA (1)Netflix (1)Neuralink (1)NFT (3)Norvegia (1)Nvidia (134)Occhiali (8)Occhiali Intelligenti (21)Occhiali Smart (1)Oculistica (1)Odore (1)Offerte lavoro (2)OMS (1)ONU (2)Open Source (27)OpenAI (507)Opera (17)Opera Browser (1)Oppo (3)Oracle (5)Orologio (1)papa Leone XIV (2)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (31)Pianeta (2)PlayStation (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (34)Programmazione (22)Prompt (5)Pubblicazione (1)Pubblicità (19)QR Code (1)Qualcomm (5)Ray-Ban (7)Realtà mista (5)Reddit (8)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (226)Ricerca scientifica (17)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (5)Robotica (164)Runway (18)Russia (3)Salute (93)Samsung (24)Sanità (22)Satelliti (5)Sceneggiatura (1)Semiconduttori (11)SEO (3)Shopping online (4)Sicurezza (39)Sicurezza informatica (94)SMS (1)Snapchat (12)Soccorso (1)Società (32)SoftBank (1)Software (5)Sony (2)Sora (1)Sport (7)Spotify (11)Stability (5)Stable Animation SDK (1)Stable Diffusion (12)Stampanti (1)Standard (7)Startup (593)streaming live (1)Supercomputer (6)Superintelligenza (3)Sviluppatori (1)Sviluppo sostenibile (1)Svizzera (1)Synthesia (1)Taiwan (39)Taxi (2)Telecomunicazioni (7)Telegram (4)Televisione (2)Tesla (10)TikTok (13)Tinder (4)Torah (1)Traduttore AI (7)Trasporti (41)Truffa (2)Twitter (13)Ucraina (3)Udito (1)UE (15)UNESCO (4)UNICEF (1)Unione Europea (65)Unitree Robotics (1)Università (5)Uomo (1)USA (120)Vaticano (7)Video (155)Videocomunicazione (4)Videogiochi (17)Vietnam (1)Vigili del fuoco (1)Violenza domestica (1)Visualizzazione dati (1)Vodafone (2)Vogue Business - As Gen Z matures (0)Volkswagen (1)VPN (3)Website (14)WhatsApp (12)Wikimedia (1)Wikipedia (3)Wordpress (5)X (13)xAI (10)Xiaomi (1)Yahoo (4)Youtube (32)Zoom (10)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

Gemini e Screen Automation: l’AI pronta a prendere il controllo dello smartphone

Google prepara una nuova svolta per l’intelligenza artificiale mobile: con Screen Automation, Gemini potrà interagire direttamente con le app Android, eseguendo azioni complesse al posto...

Genesis Mission: l’AI che gli USA scommettono per rivoluzionare la scienza

Gli Stati Uniti hanno lanciato la Genesis Mission, un’iniziativa nazionale che punta a sfruttare l’intelligenza artificiale (AI) per accelerare la scoperta scientifica collegando supercalcolo, dati federali e laboratori. Presentata il...

All Digital Weeks: L’importanza di un approccio armonizzato

REGISTRATI SU Stati Generali dell’Innovazione – SGI _____________ L’avvento dell’Intelligenza Artificiale – L’importanza di un approccio armonizzato L’avvento dell’Intelligenza Artificiale (AI) rappresenta una delle più significative rivoluzioni...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines