Il 9 maggio 2023 è stato annunciato un importante progresso nella ricerca sull’intelligenza artificiale. Utilizzando il potente GPT-4, gli esperti sono stati in grado di scrivere automaticamente spiegazioni sul comportamento dei neuroni all’interno dei modelli linguistici. Questa innovativa metodologia consente di valutare e valutare tali spiegazioni, offrendo così una maggiore comprensione di come funzionano questi modelli.
In particolare, è stato rilasciato un dataset contenente spiegazioni (seppur imperfette) e punteggi per ogni neurone nel modello GPT-2. Questa iniziativa è parte integrante della ricerca sull’allineamento e sulla sicurezza dei modelli linguistici, rappresentando il terzo pilastro del loro approccio.
La ricerca sull’interpretabilità si propone di scoprire informazioni aggiuntive analizzando internamente il modello. Una delle metodologie utilizzate consiste nell’analizzare il comportamento dei singoli componenti, come i neuroni e gli attention head. Tuttavia, finora questo processo richiedeva l’intervento umano per individuare le caratteristiche dei dati rappresentate da ciascun neurone, il che limitava l’applicazione su modelli neurali con miliardi di parametri.
La novità introdotta con GPT-4 è l’automazione di questo processo, generando spiegazioni in linguaggio naturale sul comportamento dei neuroni e assegnando loro un punteggio di rilevanza. Questo metodo è stato applicato con successo su un altro modello linguistico, dimostrando la sua efficienza e potenziale.
La possibilità di automatizzare la ricerca sull’allineamento rappresenta un aspetto promettente di questo approccio, poiché si adatta allo sviluppo dell’intelligenza artificiale stessa. Con il progredire dei modelli futuri, sempre più intelligenti ed efficaci come assistenti, si potranno ottenere spiegazioni ancora migliori, aprendo nuove prospettive nella comprensione e nella fiducia nei confronti di tali modelli.