OpenAI ha recentemente presentato Whisper, una rete neurale dedicata al riconoscimento automatico del parlato (ASR). Questo sistema, ora reso open-source, è stato addestrato su 680.000 ore di dati multilingue e multitask, raccolti dal web. Grazie a un dataset così ampio e diversificato, Whisper dimostra una maggiore robustezza rispetto ai sistemi tradizionali, in particolare nella gestione di accenti, rumori di fondo e linguaggi tecnici.
Whisper si distingue per la sua capacità di trascrivere discorsi in più lingue e di tradurli in inglese. L’architettura alla base del modello è un Transformer encoder-decoder, che elabora segmenti audio di 30 secondi, trasformandoli in spettri log-Mel e passando i dati a un decodificatore per generare il testo corrispondente. Whisper, inoltre, identifica automaticamente la lingua e aggiunge timestamp a livello di frase, offrendo una soluzione versatile e completa per la trascrizione e la traduzione.
Nonostante non eccella in benchmark specifici come LibriSpeech, Whisper dimostra una riduzione degli errori del 50% su dataset più vari. Circa un terzo dei dati audio su cui è stato addestrato proviene da lingue diverse dall’inglese, garantendo ottime performance nella traduzione del parlato.
La decisione di OpenAI di rendere open-source Whisper apre la strada allo sviluppo di nuove applicazioni, rendendo possibile l’integrazione di interfacce vocali in una vasta gamma di contesti.