Un recente studio condotto da Google DeepMind, dal titolo “Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings”, ha portato alla luce importanti scoperte nell’ambito della generazione di immagini da testo, conosciuta anche come Text-to-Image (T2I). La ricerca rivela che, nonostante i progressi significativi nel campo, i modelli T2I spesso non riescono a produrre immagini che corrispondano accuratamente ai prompt forniti.
Il team di ricerca ha sviluppato un nuovo benchmark chiamato Gecko2K per affrontare questa problematica, con lo scopo di testare in modo più preciso l’allineamento tra testo e immagine. Gecko2K è composto da due subset, Gecko(R) e Gecko(S), ognuno dei quali è progettato per valutare diverse abilità dei modelli. Questo nuovo benchmark introduce un sistema basato sulle competenze, in cui i prompt sono categorizzati in base alle abilità necessarie per interpretarli correttamente.
Lo studio ha coinvolto quattro modelli T2I e raccolto oltre 100.000 annotazioni attraverso diversi template e test di valutazione, offrendo una visione più approfondita delle sfide relative all’allineamento tra testo e immagine. Una delle principali innovazioni è stata l’introduzione di una nuova metrica di valutazione basata su questionari (QA), che si è dimostrata meglio correlata con le valutazioni umane rispetto ai precedenti metodi.
I ricercatori hanno inoltre evidenziato l’importanza di avere prompt ben definiti, poiché essi giocano un ruolo cruciale nella valutazione delle capacità dei modelli T2I. Gecko2K fornisce un set di prompt più ampio e diversificato, che permette ai ricercatori di comprendere meglio le sfide legate alla generazione di immagini da testo.
Con la pubblicazione di Gecko2K, Google DeepMind mira a migliorare la valutazione dei modelli T2I, offrendo alla comunità un nuovo strumento per la ricerca e lo sviluppo di soluzioni più precise e affidabili.
_____
Revisiting Text-to-Image Evaluation with Gecko : On Metrics, Prompts, and Human Ratings






