Il sintetizzatore vocale di NVIDIA parla come un umano: è questo il futuro del doppiaggio?

INFORMAZIONI SCHEDA

Alessio Marino

2/09/2021, ore 12:29

Nel corso della conferenza Interspeech 2021, che si svolgerà fino al 3 Settembre, i ricercatori NVIDIA sveleranno dei nuovi modelli e strumenti per la sintesi vocale che, basandosi sull'intelligenza artificiale, saranno in grado di fornire una resa pari a quella di un essere umano.

L'obiettivo finale del progetto è fare in modo che la voce sia quanto più naturale possibile, con la possibilità di enfatizzare determinati passaggi del testo proprio come avviene dalle persone, catturando la ricchezza del linguaggio umano senza artefatti audio.

Secondo NVIDIA, questi modelli potrebbero rivelarsi molto importanti per i servizi d'assistenza automatizzati di banche, rivenditori e simili, ma anche per dare vita a personaggi di videogiochi o libri e per fornire sintesi vocali in tempo reale per gli avatar digitali.

Una breve anteprima del progetto di narrazione espressiva può essere ascoltata attraverso il filmato che trovate in apertura.

La società ha spiegato che i risultati sono stati raggiunti grazie ad un nuovo modello soprannominato RAD-TTS, che si basa sull'IA. La rete neurale è stata addestrata attraverso alcuni audio registrati, combinandoli con le relative trascrizioni dei discorsi. Fondamentale è stata l'interpretazione della punteggiatura, un aspetto chiave per enfatizzare determinate parti delle frasi. Un'altra caratteristica del progetto è rappresentata dalla conversione della voce: le parole di un determinato oratore possono essere pronunciate nella voce di un altro. "Ispirata all'idea della voce umana come strumento musicale, l'interfaccia RAD-TTS offre agli utenti un controllo accurato a livello di fotogramma sull'altezza, la durata e l'energia della voce sintetizzata" evidenzia NVIDIA nel post. In questo modo un produttore video potrebbe registrare la sua voce mentre legge la sceneggiatura del video ed, utilizzando l'intelligenza artificiale, potrebbe trasformarla in una voce femminile enfatizzando parole specifiche o modificando il ritmo.

Le applicazioni, come detto poco sopra, sono davvero tantissime: tale sintesi vocale potrebbe anche essere utilizzata nei videogiochi per venire incontro alle esigenze delle persone con disabilità vocali o per la traduzione.