Un nuovo protagonista si fa spazio con l’obiettivo dichiarato di rendere accessibile ciò che fino ad oggi è stato riservato a pochi: IDEFICS. Questo acronimo, che sta per “Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS”, rappresenta un passo audace verso la democratizzazione dell’IA multimodale.
Basato sulla fondamenta di Flamingo, modello visivo e linguistico sviluppato inizialmente da DeepMind e mai reso pubblico, IDEFICS si propone come alternativa aperta e accessibile. Come spiega il team di sviluppo, il modello è in grado di elaborare sequenze arbitrarie di immagini e testo per produrre output testuale coerenti.
La novità più significativa di IDEFICS risiede nella sua trasparenza e riproducibilità. Utilizzando esclusivamente dati e modelli disponibili pubblicamente, il team di ricerca ha affrontato la sfida di rendere accessibili le capacità dei grandi modelli proprietari come Flamingo. Questo approccio non solo rende più chiare le metodologie di sviluppo, ma contribuisce anche a una maggiore fiducia e collaborazione all’interno della comunità scientifica dell’IA.
Il modello è disponibile in due varianti: la versione base e la versione istruita, entrambe disponibili rispettivamente con 9 miliardi e 80 miliardi di parametri. Questa scelta mira a soddisfare una vasta gamma di esigenze all’interno della comunità di ricerca.
Un aspetto cruciale del progetto è stato l’valutazione etica, che ha incluso una rigorosa analisi dei potenziali bias del modello tramite l’utilizzo di prompt avversariali. Questo processo, noto come “red teaming”, ha contribuito a garantire che IDEFICS sia il più equo e imparziale possibile.
L’arrivo di IDEFICS segna un importante passo avanti nella ricerca dell’IA aperta e trasparente. Con la sua promessa di accessibilità e riproducibilità, questo modello potrebbe rappresentare un punto di svolta nell’evoluzione dell’IA multimodale.
__________
Introducing IDEFICS: An Open Reproduction of State-of-the-Art Visual Language Model