Microsoft ha annunciato il lancio di un rivoluzionario framework chiamato VASA, destinato alla generazione di volti virtuali estremamente realistici e capaci di esprimere emozioni. Questa innovativa tecnologia consente di creare facce parlate partendo da una singola immagine statica e un audio, aprendo la strada a nuove possibilità nell’ambito della comunicazione digitale.
Il modello di punta, VASA-1, non solo sincronizza in modo esquisito i movimenti delle labbra con l’audio, ma cattura anche una vasta gamma di sfumature facciali e movimenti naturali della testa, contribuendo così a una maggiore percezione di autenticità e vivacità. Le principali innovazioni includono un modello olistico di generazione dei movimenti facciali e della testa che opera in uno spazio latente del viso, nonché lo sviluppo di uno spazio latente del viso espressivo e disentangled utilizzando video.
Grazie a numerosi esperimenti, inclusa la valutazione su un insieme di nuove metriche, è emerso che il metodo di Microsoft supera significativamente i precedenti in diverse dimensioni. Non solo offre una qualità video elevata con dinamiche facciali e della testa realistiche, ma supporta anche la generazione online di video fino a 512×512 a 40 FPS con una latenza iniziale trascurabile.
Tuttavia, Microsoft ha chiarito che le immagini di ritratti presenti nella demo sono identità virtuali generate da modelli come StyleGAN2 o DALL·E-3, ad eccezione della Mona Lisa, e che l’obiettivo è esplorare le abilità visive affettive per personaggi virtuali interattivi, senza impersonare persone reali. Al momento, si tratta solo di una dimostrazione di ricerca e non vi sono piani per il rilascio di un prodotto o di un’API.
_____
VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time