Microsoft rivoluziona la sintesi vocale con VALL-E

Microsoft presenta un nuovo approccio per la sintesi vocale chiamato VALL-E, che utilizza un modello di codec neurale per modellare il linguaggio condizionato invece di una regressione continua del segnale come i modelli precedenti. Qui è possibile sentire e valutare il livello della sperimentazione.

VALL-E è addestrato su 60.000 ore di dati di parlato in inglese, ed è in grado di sintetizzare discorsi personalizzati di alta qualità con soli 3 secondi di registrazione di un oratore invisibile come suggerimento acustico. VALL-E supera il sistema TTS zero-shot all’avanguardia in termini di naturalezza del parlato e somiglianza del parlante e può preservare l’emozione di chi parla e l’ambiente acustico del prompt acustico nella sintesi.

La pipeline di VALL-E è fonema → codice discreto → forma d’onda, consentendo varie applicazioni di sintesi vocale come TTS zero-shot, editing vocale e creazione di contenuti combinati con altri modelli di intelligenza artificiale generativa come GPT-3.

Questi le principali caratteristiche:

  1. Sintesi della diversità: Il modello VALL-E utilizza metodi di generazione di token discreti basati sul campionamento, che gli permettono di sintetizzare diversi campioni vocali personalizzati con semi casuali diversi a partire da un paio di messaggi di testo e di altoparlanti.
  2. Manutenzione Ambiente Acustico: VALL-E è in grado di mantenere l’ambiente acustico del prompt dell’oratore quando sintetizza un discorso personalizzato. L’audio e le trascrizioni utilizzate per questo scopo provengono dal set di dati Fisher.
  3. Mantenimento delle emozioni dell’oratore: Il modello VALL-E è in grado di mantenere l’emozione nel prompt dell’oratore quando sintetizza un discorso personalizzato. I suggerimenti audio utilizzati per questo scopo vengono campionati dal database delle voci emotive.
  4. Più campioni: Per testare il modello VALL-E, sono state selezionate casualmente alcune trascrizioni e segmenti audio di 3 secondi dal set di test di pulizia di LibriSpeech come prompt di testo e relatore, e VALL-E è stato utilizzato per sintetizzare il discorso personalizzato. Si noti che le trascrizioni e i segmenti audio utilizzati provengono da oratori diversi.
  5. Dichiarazione etica: VALL-E ha la capacità di sintetizzare il parlato mantenendo l’identità del parlante, il che potrebbe comportare potenziali rischi nell’uso improprio del modello, come lo spoofing dell’identificazione vocale o l’impersonificazione di un parlante specifico. Gli esperimenti sono stati condotti partendo dal presupposto che l’utente accetti di essere l’oratore target nella sintesi vocale, ma se il modello viene generalizzato a parlanti invisibili nel mondo reale, dovrebbe includere un protocollo per garantire che il parlante approvi l’uso della propria voce e un modello di rilevamento vocale sintetizzato.

Molte preoccupazioni si pongono sia a livello etico e sia sul suo impatto nel modo del lavoro “Il futuro incerto dell’industria del doppiaggio a causa dell’IA generativa

NEWS AIopenmind su:

3D (4)6G (1)Accademia di Comunicazione (1)Acer (1)Adobe (20)Aeronautica (8)Africa (2)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (3)AGID (1)Amazon (16)Ambiente (1)Android (4)Animali (6)Animazione (3)Anziani (1)App (5)Apple (28)Archeologia (3)Architettura (4)Armi (3)Arredamento interni (2)Arte (24)Assistente vocale (2)Astronomia (2)AT&T (1)Audio (28)Autoapprendimento (1)Avatar (3)Aviazione (1)Avvocati (2)Aziende (11)Banca (3)Bard (3)Biblioteca (1)Bill Gates (1)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (1)Calcio (2)Canva (2)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (37)Chip (2)Cina (49)Cinema (3)Claude (4)Clima (2)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (1)Compagnie aeree (1)Computer quantistici (27)Computer Vision (3)Comuni italiani (1)Comunicazione (7)Comunicazioni vocali (2)Contabilità (1)Convegno (10)Copilot (5)Copyright (5)Criptovalute (1)Cybersecurity (1)Dalle-2 (2)Dark web (2)Dating (1)Deepfake (2)Design automobilistico (2)Design Industriale (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)Editing fotografico (2)Editoria (7)ENEA (2)Esercito (2)Etica (110)Europol (1)Eventi (4)Evento (7)Facebook (3)FakeNews (15)Falegnameria (1)Fauna selvatica (1)Film (2)Finanza (6)Finanziamenti Italia (3)Firefly (3)Formazione (7)Fotografia (70)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (16)Giappone (8)Giochi (5)Giornalismo (10)Giustizia (1)Google (160)Governo (7)Grafica (2)Guerra (10)Guida autonoma (3)Hong Kong (1)Hugging Face (1)IBM (6)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (2)Influencer (1)Informazione (6)Inghilterra (2)INPS (2)Intel (3)Istruzione (16)Jailbreaking (1)Lavoro (41)Libri (3)Linguistica computazionale (6)Linkedin (4)Maltrattamento infantile (1)Marina (1)Marketing (14)Medicina (21)Mercedes-Benz (1)Meta (34)Metaverso (15)Microsoft (101)Midjourney (11)Mobilità sostenibile (1)Moda (5)Motori di Ricerca (2)Mozilla (2)Musica (23)Nato (1)Natura (1)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (23)Occhiali (2)Occhiali Intelligenti (1)Occhiali Smart (1)Oculistica (1)OMS (1)ONU (1)Open Source (2)OpenAI (131)Opera (3)Opera Browser (1)Oppo (2)Oracle (1)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Pianeta (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (2)Privacy (17)Programmazione (7)Prompt (5)Pubblicazione (1)Pubblicità (15)QR Code (1)Qualcomm (1)Ray-Ban (1)Realtà mista (2)Reddit (1)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (53)Ricerca scientifica (7)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (2)Robotica (27)Salute (3)Samsung (4)Sanità (15)Satelliti (2)Sceneggiatura (1)Semiconduttori (2)SEO (1)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

Mi sono imparato la scienza?

Fahrenheit.iit e il potere della narrazione. Mercoledì 13 marzo, ore 17:00 in Accademia di Comunicazione e in streaming Registrati La narrazione può essere la lama...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines