Il modello di intelligenza artificiale I-JEPA, basato sulla visione del Chief AI Scientist di Meta, Yann LeCun. L’obiettivo del modello è superare le limitazioni dei sistemi di intelligenza artificiale attuali, apprendendo modelli interni del mondo esterno per acquisire conoscenze più velocemente e adattarsi a situazioni sconosciute.
I-JEPA utilizza rappresentazioni astratte delle immagini anziché i pixel stessi, offrendo prestazioni elevate su compiti di visione artificiale e maggiore efficienza computazionale rispetto ad altri modelli.
Le rappresentazioni apprese da I-JEPA possono essere utilizzate per diverse applicazioni senza richiedere un’ulteriore ottimizzazione.
Il modello sarà presentato alla CVPR 2023 e il codice di addestramento e i checkpoint saranno resi open source. Inoltre, l’articolo evidenzia l’importanza dell’apprendimento auto-supervisionato per catturare conoscenze intuitive sul mondo senza l’utilizzo di dataset etichettati.
I-JEPA si basa sull’architettura Joint Embedding Predictive Architecture (JEPA), che mira a prevedere rappresentazioni di parti di un’immagine a partire da altre parti, evitando le limitazioni dei metodi di generazione.
Il modello mostra risultati promettenti nella predizione di rappresentazioni semantiche di parti di oggetti in un’immagine. I-JEPA è computazionalmente efficiente e supera i metodi di ricostruzione di pixel e token in compiti di visione artificiale.
L’obiettivo futuro è estendere l’approccio JEPA ad altri domini, come i dati immagine-testo e i dati video, per applicazioni avanzate nell’ambito della comprensione dei video e dell’apprendimento di un modello generale del mondo.