Senza formazione in IA, due universitari sviluppano un modello open source capace di generare clip vocali stile podcast.
Due studenti universitari statunitensi, privi di conoscenze avanzate in intelligenza artificiale, hanno annunciato di aver creato un modello AI pubblicamente disponibile capace di generare brevi podcast in stile NotebookLM, l’assistente sperimentale sviluppato da Google. L’annuncio, condiviso su GitHub e Reddit, ha attirato rapidamente l’attenzione della comunità tech.
Il modello, denominato “PodSage”, sfrutta strumenti open source come Whisper di OpenAI per la trascrizione, modelli linguistici per la sintesi e text-to-speech avanzato per la voce, tutto orchestrato tramite un’interfaccia accessibile anche a chi non ha competenze tecniche.
Secondo i due creatori, l’obiettivo era rendere accessibile a tutti la creazione automatizzata di contenuti audio su temi specifici, partendo da testi, link o appunti personali. I file generati, affermano, possono essere personalizzati in tono, lunghezza e formato, simulando vere conversazioni tra esperti.
Sebbene il progetto sia agli inizi e con limitazioni qualitative rispetto a soluzioni commerciali, la sua semplicità di implementazione apre interrogativi su copyright, accuratezza dei contenuti e uso improprio. Alcuni ricercatori hanno già evidenziato rischi di disinformazione e problemi etici legati alla generazione automatica di contenuti vocali realistici.
Approfondimento:
- NotebookLM, il laboratorio di Google per la conoscenza personale: link
- Whisper di OpenAI per la trascrizione vocale automatica: link
- AI generative e voce sintetica: rischi e sfide – Studio NIST 2024: link
Consigli di approfondimento:
- Il boom dei podcast generati da IA: trend e preoccupazioni
- Google e l’intelligenza artificiale nella creazione di contenuti
Abstract etico e sociale:
Pro: democratizzazione della creazione audio, accessibilità per non esperti, stimolo all’innovazione.
Rischi: disinformazione, voce sintetica usata in modo ingannevole, crisi della fiducia nei contenuti vocali.
Conseguenze future: possibile proliferazione di “deepfake vocali” educativi o propagandistici; urge regolamentazione.
