OpenAI e voci artificiali: un nuovo orizzonte tra tecniche e responsabilità

OpenAI ha condiviso un’anteprima su piccola scala di Voice Engine, un modello per la creazione di voci personalizzate. L’azienda è impegnata nello sviluppo di un’intelligenza artificiale sicura e ampiamente benefica. Oggi condividono approfondimenti preliminari e risultati di un’anteprima su piccola scala di un modello chiamato Voice Engine, che utilizza un input di testo e un singolo campione audio di 15 secondi per generare un discorso dal suono naturale che assomiglia da vicino all’oratore originale. È degno di nota che un modello ridotto con un unico campione audio di 15 secondi possa creare voci emotive e realistiche.

Voice Engine è stato sviluppato per la prima volta alla fine del 2022 e utilizzato per alimentare le voci preimpostate disponibili nell’API text-to-speech, nonché ChatGPT Voice e Read Aloud. Allo stesso tempo, OpenAI sta adottando un approccio cauto e informato a un rilascio più ampio a causa del potenziale abuso delle voci sintetiche. Sperano di avviare un dialogo sulla distribuzione responsabile delle voci sintetiche e su come la società possa adattarsi a queste nuove capacità. Basandosi su queste conversazioni e sui risultati di questi test su piccola scala, prenderanno una decisione più informata su se e come distribuire questa tecnologia su larga scala.

Prime applicazioni di Voice Engine

Per comprendere meglio le potenziali applicazioni di questa tecnologia, lo scorso anno OpenAI ha iniziato a testarla privatamente con un piccolo gruppo di partner fidati. Sono rimasti impressionati dalle applicazioni sviluppate da questo gruppo. Questi implementi su piccola scala stanno aiutando a informare il loro approccio, le salvaguardie e il pensiero su come Voice Engine potrebbe essere utilizzato per il bene in vari settori. Alcuni esempi iniziali includono:

Assistenza alla lettura per non lettori e bambini attraverso voci emotive dal suono naturale che rappresentano una gamma più ampia di oratori rispetto a quanto possibile con le voci preimpostate. Age of Learning, un’azienda di tecnologia educativa dedicata al successo accademico dei bambini, utilizza questo per generare contenuti pre-registrati. Utilizzano anche Voice Engine e GPT-4 per creare risposte personalizzate in tempo reale per interagire con gli studenti. Con questa tecnologia, Age of Learning è stata in grado di creare più contenuti per un pubblico più ampio.
Traduzione di contenuti, come video e podcast, in modo che i creatori e le aziende possano raggiungere più persone in tutto il mondo, fluentemente e con le proprie voci. HeyGen, una piattaforma di narrazione visiva basata sull’IA, collabora con i loro clienti aziendali per creare avatar personalizzati simili all’essere umano per una varietà di contenuti, dal marketing di prodotti alle demo di vendita. Utilizzano Voice Engine per la traduzione video, in modo da poter tradurre la voce di un oratore in più lingue e raggiungere un pubblico globale.
Raggiungere comunità globali, migliorando la fornitura di servizi essenziali in contesti remoti. Dimagi sta costruendo strumenti per gli operatori sanitari per fornire una varietà di servizi essenziali, come consulenza per le madri che allattano. Per aiutare questi lavoratori a sviluppare le loro competenze, Dimagi utilizza Voice Engine e GPT-4 per dare feedback interattivi nella lingua madre di ogni operatore, inclusi lo Swahili o lingue informali come lo Sheng, una lingua codificata popolare in Kenya.
Supportare le persone non verbali, come applicazioni terapeutiche per individui con condizioni che influenzano il linguaggio e miglioramenti educativi per coloro con esigenze di apprendimento. Livox, un’app di comunicazione alternativa basata sull’IA, alimenta dispositivi di comunicazione aumentativa e alternativa (AAC) che consentono alle persone con disabilità di comunicare. Utilizzando Voice Engine, sono in grado di offrire persone non verbali voci uniche e non robotiche in molte lingue. I loro utenti possono scegliere il discorso che li rappresenta meglio e, per gli utenti multilingue, mantenere una voce coerente in ciascuna lingua parlata.
Aiutare i pazienti a recuperare la propria voce, per coloro che soffrono di condizioni del linguaggio improvvisate o degenerative. L’Istituto di neuroscienze Norman Prince presso Lifespan sta esplorando utilizzi dell’IA in contesti clinici. Hanno avviato un programma pilota offrendo Voice Engine a individui con eziologie oncologiche o neurologiche per l’impairment del linguaggio. Dal momento che Voice Engine richiede un campione audio così breve, i dottori Fatima Mirza, Rohaid Ali e Konstantina Svokos sono stati in grado di ripristinare la voce di una giovane paziente che ha perso il suo linguaggio fluido a causa di un tumore cerebrale vascolare, utilizzando l’audio da un video registrato per un progetto scolastico.

Costruire Voice Engine in modo sicuro

OpenAI riconosce che generare discorsi che assomigliano alle voci delle persone comporta seri rischi, che sono particolarmente in primo piano in un anno di elezioni. Si stanno impegnando con partner statunitensi e internazionali provenienti da governo, media, intrattenimento, istruzione, società civile e oltre per garantire che stiano incorporando il loro feedback mentre costruiscono.

I partner che testano Voice Engine oggi hanno accettato le politiche d’uso di OpenAI, che proibiscono l’impersonificazione di un’altra persona o organizzazione senza consenso o diritto legale. Inoltre, i termini con questi partner richiedono un consenso esplicito e informato dal parlante originale e non consentono agli sviluppatori di creare modi per gli utenti individuali di creare le proprie voci. I partner devono anche divulgare chiaramente al loro pubblico che le voci che stanno ascoltando sono generate dall’IA. Infine, hanno implementato una serie di misure di sicurezza, inclusi watermarking per tracciare l’origine di qualsiasi audio generato da Voice Engine, così come il monitoraggio proattivo di come viene utilizzato.

Si ritiene che ogni distribuzione ampia della tecnologia delle voci sintetiche dovrebbe essere accompagnata da esperienze di autenticazione vocale che verifichino che il parlante originale stia aggiungendo consapevolmente la propria voce al servizio e una lista di voci non consentite che rilevi e impedisca la creazione di voci troppo simili a figure di spicco.

Prospettive future

Voice Engine è un continuo impegno di OpenAI per comprendere il fronte tecnico e condividere apertamente ciò che sta diventando possibile con l’IA. In linea con il loro approccio alla sicurezza dell’IA e ai loro impegni volontari, scelgono di presentare ma non rilasciare ampiamente questa tecnologia in questo momento. Sperano che questa anteprima di Voice Engine sottolinei sia il suo potenziale sia la necessità di rafforzare la resilienza della società contro le sfide portate da modelli generativi sempre più convincenti. In particolare, incoraggiano passi come:

Gradualmente eliminare l’autenticazione vocale come misura di sicurezza per accedere a conti bancari e altre informazioni sensibili
Esplorare politiche per proteggere l’uso delle voci individuali nell’IA
Educare il pubblico a comprendere le capacità e i limiti delle tecnologie dell’IA, inclusa la possibilità di contenuti ingannevoli dell’IA
Accelerare lo sviluppo e l’adozione di tecniche per tracciare l’origine dei contenuti audiovisivi, in modo che sia sempre chiaro quando si sta interagendo con una persona reale o con un’IA.

È importante che le persone in tutto il mondo comprendano dove si sta dirigendo questa tecnologia, che OpenAI la distribuisca ampiamente o meno. Attendono con interesse di continuare a partecipare a conversazioni sulle sfide e le opportunità delle voci sintetiche con responsabili politici, ricercatori, sviluppatori e creativi.

_______
Navigating the Challenges and Opportunities of Synthetic Voices

OpenAI e voci artificiali: un nuovo orizzonte tra tecniche e responsabilità

NEWS AIopenmind su:

Iscrizione NEWSLETTER

Visita le sezioni del sito

Link utili

Media Partner