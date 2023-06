L'Intelligenza Artificiale è ormai di casa a Menlo Park: a meno di una settimana dal lancio dell'IA MusicGen di Meta, la compagnia di Mark Zuckerberg ha oggi annunciato l'IA di Meta Voicebox, un nuovo modello generativo text-to-speech che promette di essere l'equivalente di ChatGPT e di Dall-E per il parlato.

Scendendo un po' più nello specifico, Voicebox è una sorta di Chatbot per la parola, convertendo le suggestioni ricevute in forma testuale dagli utenti in un output sotto forma di audio. In altre parole, Voicebox fa la stessa cosa che già fanno ChatGPT e Dall-E ma, al posto di fornirvi testi e immagini in uscita, produce un file audio.

Meta definisce Voicebox come un "modello linguistico non-autoregressivo e ritmato che è stato addestrato per produrre il parlato, dato un contesto audiofonico e un testo di base". Voicebox è stato "allenato" usando ben 50.000 ore di audio non filtrato, utilizzando delle trascrizioni e delle voci registrate provenienti da una lunga serie di audiolibri di pubblico dominio tradotti in inglese, francese, spagnolo, tedesco, portoghese e polacco.

Un dataset così ampio e diversificato permette al bot di generare un parlato molto simile a una conversazione, al netto del linguaggio parlato dall'interlocutore. Secondo i ricercatori, "i nostri risultati mostrano che il modello di riconoscimento del parlato addestrato sugli audio generati sinteticamente da Voicebox è tanto accurato quanto i modelli addestrati sul parlato di persone reali". La percentuale di errori di Voicebox dovrebbe essere pari all'1%, contro quella compresa tra il 45 e il 70% dei principali modelli text-to-speech non basati sull'IA.

Attenzione, però: Voicebox non si limiterà a leggere i vostri testi. Al contrario, come ogni IA generativa, esso potrà creare dei discorsi, completarli e aggiungere dettagli a questi ultimi, almeno in presenza di un contesto sufficientemente ampio. I ricercatori di Meta, infatti, hanno spiegato che "il modello ha imparato a estrudere il parlato dal contesto, perciò esso può includere delle porzioni di discorso autogenerate nel mezzo di una registrazione audio senza dover ricreare l'intero input".

Tra le altre capacità di Voicebox abbiamo anche quella di editare video e rimpiazzare le parole pronunciate scorrettamente da attori, doppiatori e da chiunque si trovi davanti ad un microfono: una rivoluzioni in moltissimi settori, potenzialmente. Sfortunatamente, però, pare che Voicebox non verrà divulgato all'esterno di Meta, almeno per ora.