Un nuovo traguardo è stato raggiunto con l’avvento di OpenEQA. Questo progetto innovativo, presentato da un team di ricercatori di spicco nel campo dell’intelligenza artificiale, ha come obiettivo principale quello di sviluppare un sistema in grado di comprendere l’ambiente circostante abbastanza da poter rispondere a domande in linguaggio naturale.
OpenEQA si basa su una formulazione moderna di Embodied Question Answering (EQA), che pone l’accento sull’importanza di comprendere l’ambiente circostante per poter rispondere alle domande ad esso correlate. Questo può avvenire sia attraverso la memoria episodica, come nel caso degli agenti indossabili, sia mediante l’esplorazione attiva dell’ambiente, tipica dei robot mobili.
Il cuore di OpenEQA è costituito da un vasto dataset contenente oltre 1600 domande di alta qualità, generato da esseri umani e proveniente da più di 180 ambienti reali. Questo dataset è supportato da un protocollo di valutazione automatico basato su modelli di linguaggio avanzati, che ha dimostrato di avere un’eccellente correlazione con il giudizio umano.
Tuttavia, nonostante l’avanzamento dei modelli di intelligenza artificiale di base come GPT-4V, i risultati ottenuti su OpenEQA sono ancora lontani dalle prestazioni umane. Ciò conferma l’importanza di sviluppare modelli di intelligenza artificiale sempre più sofisticati e adattabili all’ambiente circostante.
OpenEQA si presenta dunque come una sfida significativa per la generazione attuale di modelli di intelligenza artificiale, offrendo nel contempo spunti stimolanti per la ricerca futura nel campo dell’IA incorporata, degli agenti conversazionali e dei modelli del mondo.
______
OpenEQA: Embodied Question Answering in the Era of Foundation Models