Microsoft presenta VALL-E: l'IA a cui bastano 3 secondi per simulare la voce di chiunque

Microsoft presenta VALL-E: l'IA a cui bastano 3 secondi per simulare la voce di chiunque
di

La spinta di Microsoft nel settore dell’intelligenza artificiale non è nuova ed è confermata anche dai rumor emersi nelle scorse ore secondo cui ChatGPT potrebbe essere integrato in Office. Tuttavia, il colosso di Redmond ha svelato un nuovo modello d’IA chiamato VALL-E che si basa sulla sintesi vocale.

VALL-E infatti può simulare la voce di chiunque basandosi su un campione audio di appena tre secondi. L’intelligenza artificiale infatti è in grado di sintetizzare la voce di qualsiasi persone preservando anche il tono emotivo.

Microsoft spiega che VALL-E potrebbe essere utilizzata per l’editing vocale e la creazione di contenuti audio, se combinata con altri modelli d’intelligenza artificiale generativa come GPT-3.

Alla base di VALL-C c’è una tecnologia chiamata EnCodec che è stata annunciata da Meta nell’ottobre 2022 e che a differenza di altri modelli di sintesi vocale genera i codec audio da messaggi di testo ed acustici. Analizzando la voce di una persona, l’IA suddivide le informazioni in token che vengono utilizzati per addestrare il modello neurale.

VALL-E è stata addestrata utilizzando una libreria audio di Meta chiamata LibriLight che contiene 60mila ore di discorsi in lingua inglese pronunciati da 7mila persone, per lo più estratti da audiolibri. Alcuni esempi sono disponibili sulla repository GitHub di VALL-E.

Microsoft nel documento si sofferma anche sugli utilizzi impropri. “VALL-E potrebbe comportare potenziali rischi nell’uso improprio del modello, come lo spoofing dell’identificazione vocale o l’impersonificazione di un oratore specifico. Per mitigare tali rischi, è possibile sviluppare un sistema di rilevamento per capire se una clip audio è stata sintetizzata da VALL-E” sottolinea il colosso di Redmond.

Microsoft presenta VALL-E: l'IA a cui bastano 3 secondi per simulare la voce di chiunque