Microsoft presenta un nuovo approccio per la sintesi vocale chiamato VALL-E, che utilizza un modello di codec neurale per modellare il linguaggio condizionato invece di una regressione continua del segnale come i modelli precedenti. Qui è possibile sentire e valutare il livello della sperimentazione.
VALL-E è addestrato su 60.000 ore di dati di parlato in inglese, ed è in grado di sintetizzare discorsi personalizzati di alta qualità con soli 3 secondi di registrazione di un oratore invisibile come suggerimento acustico. VALL-E supera il sistema TTS zero-shot all’avanguardia in termini di naturalezza del parlato e somiglianza del parlante e può preservare l’emozione di chi parla e l’ambiente acustico del prompt acustico nella sintesi.
La pipeline di VALL-E è fonema → codice discreto → forma d’onda, consentendo varie applicazioni di sintesi vocale come TTS zero-shot, editing vocale e creazione di contenuti combinati con altri modelli di intelligenza artificiale generativa come GPT-3.
Questi le principali caratteristiche:
- Sintesi della diversità: Il modello VALL-E utilizza metodi di generazione di token discreti basati sul campionamento, che gli permettono di sintetizzare diversi campioni vocali personalizzati con semi casuali diversi a partire da un paio di messaggi di testo e di altoparlanti.
- Manutenzione Ambiente Acustico: VALL-E è in grado di mantenere l’ambiente acustico del prompt dell’oratore quando sintetizza un discorso personalizzato. L’audio e le trascrizioni utilizzate per questo scopo provengono dal set di dati Fisher.
- Mantenimento delle emozioni dell’oratore: Il modello VALL-E è in grado di mantenere l’emozione nel prompt dell’oratore quando sintetizza un discorso personalizzato. I suggerimenti audio utilizzati per questo scopo vengono campionati dal database delle voci emotive.
- Più campioni: Per testare il modello VALL-E, sono state selezionate casualmente alcune trascrizioni e segmenti audio di 3 secondi dal set di test di pulizia di LibriSpeech come prompt di testo e relatore, e VALL-E è stato utilizzato per sintetizzare il discorso personalizzato. Si noti che le trascrizioni e i segmenti audio utilizzati provengono da oratori diversi.
- Dichiarazione etica: VALL-E ha la capacità di sintetizzare il parlato mantenendo l’identità del parlante, il che potrebbe comportare potenziali rischi nell’uso improprio del modello, come lo spoofing dell’identificazione vocale o l’impersonificazione di un parlante specifico. Gli esperimenti sono stati condotti partendo dal presupposto che l’utente accetti di essere l’oratore target nella sintesi vocale, ma se il modello viene generalizzato a parlanti invisibili nel mondo reale, dovrebbe includere un protocollo per garantire che il parlante approvi l’uso della propria voce e un modello di rilevamento vocale sintetizzato.
Molte preoccupazioni si pongono sia a livello etico e sia sul suo impatto nel modo del lavoro “Il futuro incerto dell’industria del doppiaggio a causa dell’IA generativa“