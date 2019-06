Facebook ci sta guidando verso una vera e propria rivoluzione nella clonazione delle voci e la creazione di discorsi tramite l'utilizzo di sistemi d'intelligenza artificiale. L'ultimo risultato sono delle tracce vocali che sono basate su un sistema che ha clonato la voce del fondatore ed ex CEO di Microsoft, Bill Gates.

Il tutto è frutto dell'utilizzo di un sistema di deep learning denominato MelNet, che come dicevamo poco sopra è progettato e creato dagli ingegneri di Facebook. Gates è solo l'ultimo di una lunga serie di voci che l'IA è in grado di clonare ed imitare.

Per accedere a tutte le tracce vocali basta collegarsi alla repository ufficiale del progetto e sfogliare la cartella "samples".

La scelta è ricaduta su personalità come Bill Gates in quanto gli sviluppatori hanno addestrato il sistema d'IA con oltre 452 ore di TED Talk. Il resto dei dati "somministrati" al sistema invece proviene da audiolibri vari.

La tecnologia non è certo nuova e di recente sono stati tanti gli sviluppatori che hanno adottato approcci simili. Qualche mese fa abbiamo parlato dell'IA che è riuscita a replicare la voce di Joe Rogan, ma il sistema sviluppato dai ricercatori di Facebook è diverso.

MelNet infatti è in grado di identificare "strutture di alto livello" nelle tracce vocali. In questo modo può isolare le sottili consistenze contenute nella voce di un oratore che sono quasi impossibili da descrivere a parole, ma a cui l'orecchio umano è perfettamente sensibile. Tali dati vengono inseriti in uno spettogramma che consente agli algoritmi di produrre voci più consistenti ed allo stesso tempo fedeli.

Ci sono delle limitazioni importanti però. Innanzitutto, il modello d'IA non è in grado di capire i cambiamenti della voce nel tempo, per periodi più lunghi. Ad esempio, non sembra essere in grado di cambiare il tono della voce in determinati paragrafi.

Il sistema MelNet non genera solo voci realistiche, ma può anche essere usato per la creazione di musica. I benefici sono tanti e potrebbe essere utilizzato per creare assistenti basati sull'IA ad alta qualità, ma anche modelli di voce per persone che hanno problemi col linguaggio.