Nel mondo dell’intelligenza artificiale, la curazione dei dati si conferma un elemento cruciale per il pretraining su larga scala. Recentemente, un gruppo di ricercatori ha presentato un approccio innovativo, denominato JEST (Joint Example Selection for Multimodal Learning), che dimostra come la selezione congiunta di batch di dati possa accelerare significativamente il processo di apprendimento rispetto alla selezione indipendente. Questo metodo si basa su obiettivi contrastivi multimodali, evidenziando le interdipendenze tra i dati e fornendo criteri naturali per misurare la “learnability” di un batch.
L’algoritmo sviluppato per JEST si distingue per la sua semplicità e l’efficacia nel migliorare le performance durante l’addestramento, riducendo fino a 13 volte le iterazioni necessarie e il carico computazionale fino a 10 volte. Una delle chiavi del successo di questo approccio risiede nella capacità di orientare il processo di selezione dei dati verso distribuzioni più curate e di dimensioni più contenute, utilizzando modelli di riferimento preaddestrati.
L’importanza della curazione dei dati emerge quindi come una nuova dimensione fondamentale nelle leggi di scalabilità delle reti neurali. Con JEST, i ricercatori non solo superano i modelli di stato dell’arte, ma pongono anche le basi per un futuro in cui l’efficienza e l’efficacia dell’apprendimento automatico possano andare di pari passo.