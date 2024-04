È indubbio che il mondo dell'intelligenza artificiale stia facendo passi da gigante. Di recente su queste pagine abbiamo approfondito l'utilizzo dell'IA per creare hit musicali, ma non è di certo solamente questo il contesto in cui il settore può stupire. Adesso, infatti, Microsoft ha presentato VASA-1, IA che può generare deepfake parlanti.

Sì, avete capito bene: ad aprile 2024 il team di Microsoft Research Asia ha pubblicato un paper su arXiv in cui viene illustrato un framework pensato per generare avatar parlanti fotorealistici a partire banalmente da una singola foto e da una clip audio. Tutto questo riuscendo a sincronizzare i movimenti della bocca nel risultato finale. Potete vedere alcuni esempi pratici nei video a corredo.

I test del team di ricercatori di Microsoft mira a realizzare video fotorealistici, ma c'è un aspetto a cui prestare attenzione. Per quanto, infatti, quel che si vede nei video di presentazione di VASA-1 che circolano online possa risultare sorprendente, la società di Redmond ci tiene a esplicitare che tutte le immagini di volti sono virtuali (nessuna foto di persona reale è stata utilizzata per i test) e che non c'è alcuna intenzione di rendere disponibile un servizio per generare deepfake.



"Questa è solo una dimostrazione di ricerca e non esiste un piano di rilascio di prodotto o API", scrive Microsoft a caratteri cubitali sul suo portale ufficiale (a cui potete fare riferimento per maggiori dettagli tecnici). Tuttavia, di certo i risultati raggiunti dall'azienda di Redmond in questo campo non passano inosservati.

