Whisper: il sistema di riconoscimento vocale open-source che sfida le barriere linguistiche

OpenAI ha recentemente presentato Whisper, una rete neurale dedicata al riconoscimento automatico del parlato (ASR). Questo sistema, ora reso open-source, è stato addestrato su 680.000 ore di dati multilingue e multitask, raccolti dal web. Grazie a un dataset così ampio e diversificato, Whisper dimostra una maggiore robustezza rispetto ai sistemi tradizionali, in particolare nella gestione di accenti, rumori di fondo e linguaggi tecnici.

Whisper si distingue per la sua capacità di trascrivere discorsi in più lingue e di tradurli in inglese. L’architettura alla base del modello è un Transformer encoder-decoder, che elabora segmenti audio di 30 secondi, trasformandoli in spettri log-Mel e passando i dati a un decodificatore per generare il testo corrispondente. Whisper, inoltre, identifica automaticamente la lingua e aggiunge timestamp a livello di frase, offrendo una soluzione versatile e completa per la trascrizione e la traduzione.

Nonostante non eccella in benchmark specifici come LibriSpeech, Whisper dimostra una riduzione degli errori del 50% su dataset più vari. Circa un terzo dei dati audio su cui è stato addestrato proviene da lingue diverse dall’inglese, garantendo ottime performance nella traduzione del parlato.

La decisione di OpenAI di rendere open-source Whisper apre la strada allo sviluppo di nuove applicazioni, rendendo possibile l’integrazione di interfacce vocali in una vasta gamma di contesti.

NEWS AIopenmind su:

3D (6)6G (1)Accademia di Comunicazione (4)Acer (1)Adobe (39)Aeronautica (9)Africa (3)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (6)AGID (1)Amazon (36)Ambiente (2)AMD (1)Android (6)Animali (6)Animazione (4)Anthropic (13)Anziani (1)App (10)Apple (60)Archeologia (3)Architettura (4)Archivi storici (1)Armi (3)Arredamento interni (2)Arte (27)Assistente vocale (6)Astronomia (2)Asus (2)AT&T (1)Audi (1)Audio (53)Autoapprendimento (1)Avatar (7)Aviazione (1)Avvocati (2)Aziende (19)Banca (3)Bard (3)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)Canva (7)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (49)Chip (3)Cina (53)Cinema (9)Claude (19)Clima (3)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (2)Compagnie aeree (1)Computer (3)Computer quantistici (31)Computer Vision (3)Comuni italiani (1)Comunicazione (9)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (1)Contabilità (1)Convegno (13)Copilot (5)Copyright (14)Criptovalute (1)Cybersecurity (1)Dalle-2 (3)Dark web (2)Data center (1)Dating (1)Deepfake (2)Design automobilistico (2)Design Industriale (6)Diritti Autore (1)Disney (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (10)Email (1)ENEA (2)Esercito (2)Etica (129)Europol (1)Eventi (7)Evento (7)Facebook (4)FakeNews (18)Falegnameria (1)Fauna selvatica (1)Film (5)Finanza (9)Finanziamenti Italia (3)Firefly (3)Firefox (1)Fondo Monetario Internazionale (1)Formazione (18)Fotografia (110)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (19)Giappone (9)Giochi (7)Giornalismo (14)Giustizia (1)Google (290)Governo (7)Governo Italiano (3)Grafica (6)Guerra (12)Guida autonoma (5)Hong Kong (1)Hugging Face (3)IBM (7)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (3)Influencer (1)Informazione (9)Inghilterra (7)INPS (2)Intel (7)ISO (1)Istruzione (16)Jailbreaking (1)Kamala Harris (1)Lavoro (44)Libri (3)Linguistica computazionale (7)Linkedin (8)Linux (1)Luma AI (1)Maltrattamento infantile (1)Marina (1)Marketing (70)Medicina (26)Mercedes-Benz (1)Meta (85)Metaverso (17)Microsoft (174)Midjourney (18)Mobilità sostenibile (1)Moda (5)Modelli AI (38)Motori di Ricerca (12)Mozilla (2)Museo (1)Musica (37)NASA (1)Nato (2)Natura (2)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (35)Occhiali (7)Occhiali Intelligenti (2)Occhiali Smart (1)Oculistica (1)OMS (1)ONU (1)Open Source (2)OpenAI (236)Opera (12)Opera Browser (1)Oppo (3)Oracle (2)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (6)Pianeta (2)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (28)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

Da Pioniere a Profeta: Le Idee di Jerry Kaplan sull’IA Generativa

Jerry Kaplan, informatico e imprenditore statunitense, è uno dei pionieri della tecnologia, con un’illustre carriera che abbraccia oltre quattro decenni. Autore di "Generative A.I."...

AI e Difesa: La Cina sfrutta il modello Llama di Meta per scopi militari

Un gruppo di ricercatori cinesi, legati all'Accademia di Scienze Militari dell'Esercito Popolare di Liberazione (PLA), ha adattato il modello di intelligenza artificiale Llama di...

Mi sono imparato la scienza?

Fahrenheit.iit e il potere della narrazione. Mercoledì 13 marzo, ore 17:00 in Accademia di Comunicazione e in streaming Registrati La narrazione può essere la lama...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines