Rivoluzione Vocale: Amazon BASE TTS e il futuro del parlato digitale

Il panorama della sintesi vocale ha raggiunto nuovi orizzonti grazie all’introduzione di Amazon BASE TTS. Questo modello, acronimo di Big Adaptive Streamable TTS with Emergent abilities, rappresenta il culmine delle attuali tecnologie nel convertire testo in voce. Addestrato su un vasto dataset di 100.000 ore di dati vocali di dominio pubblico, Amazon BASE TTS ha conseguito un nuovo primato nella naturalezza del parlato. Utilizzando un autoregressivo Transformer da 1 miliardo di parametri, il sistema converte i testi grezzi in codici discreti, chiamati “speechcodes”, i quali vengono poi decodificati in forma d’onda in modo incrementale e streamable attraverso un decoder basato su convoluzioni. Inoltre, i speechcodes sono costruiti utilizzando una nuova tecnica di tokenizzazione del linguaggio che include il disentanglement dell’identificazione del parlante e la compressione con encoding byte-pair. Richiamando le ampiamente riportate “abilità emergenti” dei grandi modelli linguistici quando addestrati su volumi crescenti di dati, si dimostra che le varianti di Amazon BASE TTS, addestrate su più di 10.000 ore e con oltre 500 milioni di parametri, iniziano a mostrare una prosodia naturale anche su frasi testualmente complesse. Per valutare queste abilità emergenti nel contesto della sintesi vocale, è stato progettato e condiviso un dataset specializzato. La naturalezza all’avanguardia di Amazon BASE TTS è stata messa alla prova confrontandola con altri sistemi di sintesi vocale su larga scala come YourTTS, Bark e TortoiseTTS.

________
BASE TTS: Lessons from building a billion-parameter text-to-speech model on 100K hours of data

NEWS AIopenmind su:

3D (4)6G (1)Accademia di Comunicazione (1)Acer (1)Adobe (23)Aeronautica (9)Africa (2)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (3)AGID (1)Amazon (18)Ambiente (1)Android (5)Animali (6)Animazione (3)Anziani (1)App (5)Apple (35)Archeologia (3)Architettura (4)Armi (3)Arredamento interni (2)Arte (24)Assistente vocale (2)Astronomia (2)Asus (1)AT&T (1)Audio (30)Autoapprendimento (1)Avatar (3)Aviazione (1)Avvocati (2)Aziende (11)Banca (3)Bard (3)Biblioteca (1)Bill Gates (1)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)Canva (3)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (39)Chip (3)Cina (49)Cinema (3)Claude (7)Clima (2)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (1)Compagnie aeree (1)Computer quantistici (27)Computer Vision (3)Comuni italiani (1)Comunicazione (7)Comunicazioni vocali (2)Concorso bellezza AI (1)Contabilità (1)Convegno (12)Copilot (5)Copyright (5)Criptovalute (1)Cybersecurity (1)Dalle-2 (2)Dark web (2)Dating (1)Deepfake (2)Design automobilistico (2)Design Industriale (6)Diritti Autore (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)Editing fotografico (2)Editoria (8)ENEA (2)Esercito (2)Etica (111)Europol (1)Eventi (4)Evento (7)Facebook (3)FakeNews (17)Falegnameria (1)Fauna selvatica (1)Film (2)Finanza (6)Finanziamenti Italia (3)Firefly (3)Formazione (7)Fotografia (76)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (16)Giappone (8)Giochi (5)Giornalismo (10)Giustizia (1)Google (166)Governo (7)Governo Italiano (1)Grafica (2)Guerra (12)Guida autonoma (3)Hong Kong (1)Hugging Face (2)IBM (6)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (2)Influencer (1)Informazione (6)Inghilterra (4)INPS (2)Intel (3)Istruzione (16)Jailbreaking (1)Lavoro (42)Libri (3)Linguistica computazionale (6)Linkedin (5)Maltrattamento infantile (1)Marina (1)Marketing (22)Medicina (23)Mercedes-Benz (1)Meta (41)Metaverso (15)Microsoft (116)Midjourney (11)Mobilità sostenibile (1)Moda (5)Modelli AI (15)Motori di Ricerca (2)Mozilla (2)Musica (24)Nato (1)Natura (1)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (24)Occhiali (2)Occhiali Intelligenti (1)Occhiali Smart (1)Oculistica (1)OMS (1)ONU (1)Open Source (2)OpenAI (154)Opera (5)Opera Browser (1)Oppo (2)Oracle (1)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Pianeta (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (2)Privacy (17)Programmazione (8)Prompt (5)Pubblicazione (1)Pubblicità (15)QR Code (1)Qualcomm (3)Ray-Ban (2)Realtà mista (2)Reddit (2)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (63)Ricerca scientifica (7)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (2)Robotica (32)Salute (3)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

Il Nuovo Codice Etico di Reddit

Nel contesto dell'evoluzione dell'ecosistema internet, Reddit ha annunciato il lancio del suo nuovo codice etico denominato "Public Content Policy" con l'obiettivo di delineare chiaramente...

Sfide e Opportunità dell’IA sul Posto di Lavoro: Il Rapporto 2024

Nell'articolo "L'IA al Lavoro è Ora una Realtà: Arriva la Fase Sfida" si descrive il recente rilascio del rapporto 2024 sull'andamento delle tendenze lavorative,...

Mi sono imparato la scienza?

Fahrenheit.iit e il potere della narrazione. Mercoledì 13 marzo, ore 17:00 in Accademia di Comunicazione e in streaming Registrati La narrazione può essere la lama...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines