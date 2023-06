Non passa giorno in cui il segmento delle intelligenze artificiali generative non si arricchisca di nuovi attori, tutti in competizione per conquistare il ruolo di protagonisti in quello che a tutti gli effetti si prospetta come uno dei mercati più remunerativi da qui ai prossimi anni.

Come gli altri grandi colossi dell'industria tech, anche Meta ha presentato una serie di progetti basati su IA che toccano svariate aree di interesse e spaziano dalla creazione di spazi pubblicitari alla conservazione del patrimonio linguistico. Negli ultimi giorni la società di Mark Zuckerberg ha lanciato Voicebox, una IA generativa "text-to-speech" in grado di creare parlato e clip audio a partire da un semplice testo scritto.

Meta afferma di aver sviluppato uno delle intelligenze artificiali più potenti (e pericolose) viste fino a questo momento, ma è davvero così? Cerchiamo di capire cosa promette davvero Voicebox.



Il Verbo secondo Meta

Sviluppata e presentata dalla piattaforma di ricerca Meta AI, Voicebox è una IA generativa per il parlato che, oltre a generare clip audio da un semplice testo, può svolgere diverse funzioni relative all'editing e al campionamento: al di là della "semplice" creazione di una traccia vocale a partire dal testo scritto, questa IA è in grado di modificare l'audio preregistrato eliminando i rumori di fondo, come il traffico stradale o l'abbaiare di un cane, senza intaccarne la qualità e lo stile originale.

Nello specifico, Voicebox può effettuare una sintesi text-to-speech contestuale utilizzando una clip audio di soli due secondi e adattando l'intero testo scritto allo stile e al tono di quest'ultima.

L'IA è in grado di svolgere anche funzioni di editing avanzato: se una registrazione vocale dovesse essere rovinata da un rumore di qualsiasi tipo, interrotta o semplicemente sbagliata, Voicebox può sostituire le parole mancanti o errate senza la necessità di dover registrare nuovamente la clip.

Il modello di Meta può anche riprodurre con precisione qualsiasi voce imitandone il tono e lo stile a partire da una registrazione audio e da un testo scritto, il tutto in ben sei lingue: inglese, francese, spagnolo, tedesco, polacco e portoghese.

Nel futuro prossimo, quindi, sarà possibile comunicare in modo naturale anche se non si parla la stessa lingua.



Modello innovativo e tante applicazioni

Proprio come i sistemi generativi per le immagini e il testo, Voicebox può riprodurre una vasta gamma di stili, modificare campioni o produrre output audio da zero, riconoscendo e sintetizzando il tutto in sei lingue differenti.

L'approccio dell'IA di Meta è innovativo: mentre altre intelligenze artificiali necessitano di un addestramento specifico per ogni singolo compito, utilizzando una certa mole di dati accuratamente preparati, Voicebox è riesce ad apprendere direttamente dall'audio grezzo e dalla trascrizione che lo accompagna grazie ad un metodo chiamato "Flow Matching". Stando a Meta, questo sistema supera in velocità, accuratezza e intelligibilità l'attuale modello di VALL-E.

Le applicazioni di questa nuova tecnologia sono le più disparate: immaginate assistenti vocali in grado di rispondere ai nostri comandi non solo con voce più naturale me persino replicando in tutto e per tutto lo stile e il tono dei nostri personaggi preferiti, oppure gli NPC dei videogiochi che scambiano quattro chiacchiere proprio come persone reali (a questo proposito, ricordiamo che qualche settimana fa, dal Computex 2023 di Taipei, NVIDIA ha presentato ACE for Games).

Se vogliamo pensare a qualcosa di socialmente utile, il pensiero va a tutte le persone ipovedenti che potranno ascoltare i messaggi testuali ricevuti o addirittura interi articoli con la voce originale degli autori. Infine tutte le applicazioni professionali nel campo dell'audio editing: non vediamo l'ora di poter usare uno strumento del genere per correggere gli errori nei nostri video senza dover registrare intere sessioni dall'inizio.



Troppo pericolosa?

Al momento, Meta deciso di limitare la diffusione di Voicebox e di non pubblicare il codice sorgente. Alla base di questa scelta c'è la possibilità che questo tipo di IA venga utilizzata per scopi poco nobili: non è difficile immaginare malintenzionati pronti a replicare le voci più disparate con il fine di mettere in piedi truffe o generare veri e propri deep fake.

Come si legge nel blog di Meta: "ci sono molte possibilità d'uso elettrizzanti per i modelli generativi del parlato, ma a causa dei potenziali rischi in caso di utilizzo scorretto abbiamo deciso di non rendere il modello di Voicebox o il suo codice pubblici, in questo momento".

Non rimane che attendere per mettere mano alle tante possibilità offerte da questo nuovo progetto di Meta e per vedere se tutte le aspettative saranno rispettate.

Come sempre, vi terremo aggiornati su Voicebox e su tutti i suoi possibili sviluppi.