Dopo aver trattato la disponibilità del primo cortometraggio generato con l'IA Sora, è giunta l'ora di tornare a fare riferimento alle novità in casa OpenAI. L'azienda ha infatti ufficializzato Voice Engine, strumento per clonare la voce umana.

Come funziona? È direttamente un post pubblicato sul blog di OpenAI nella giornata del 29 marzo 2024 a spiegarlo. Prima, però, è giusto fare un'importante precisazione: tranquilli, il tool non è disponibile per il pubblico (e non può dunque essere utilizzato da malintenzionati per deepfake e simili). OpenAI vuole infatti procedere in modo etico, tanto che non c'è ancora una data di rilascio per tutti.

Sam Altman e soci sono insomma impegnati nel capire come evitare abusi del modello, ma l'annuncio di Voice Engine sta già facendo discutere. D'altronde, quest'ultimo rappresenta un'espansione delle API di sintesi vocale di OpenAI. Tradotto in parole povere? L'obiettivo è quello di clonare una voce umana a partire da 15 secondi di sample, generando in questo modo una copia sintetica.

Il modello coinvolto è per certi versi già "nascosto" nei servizi di OpenAI, relativamente alle funzioni vocali e di "lettura ad alta voce" di ChatGPT. C'è inoltre un esempio pratico di utilizzo di terze parti: Spotify lo ha sfruttato per doppiare podcast come quello di Lex Fridman in diverse lingue. Com'è avvenuto l'addestramento? Di mezzo c'è un mix di dati pubblici e concessi in licenza. Non c'è, però, alcun addestramento sull'audio che viene fornito in input, in quanto il sample di 15 secondi viene eliminato una volta completata la richiesta.

L'ambizione di OpenAI può essere vista sia come intrigante che come "inquietante". È la stessa azienda, tramite dichiarazioni rilasciate ai microfoni di TechCrunch da Jeff Harris, membro del Product Staff, a cercare di rassicurare le persone: "vogliamo essere sicuri che tutti si sentano bene riguardo al modo in cui questa tecnologia viene implementata, che si comprenda il quadro in cui può diventare pericolosa e che disponiamo di misure di mitigazione per questi scenari".

Per quanto i servizi di clonazione vocale non rappresentino una novità assoluta, basti pensare all'esistenza di Replica Studios, sarà interessante vedere come si evolverà il progetto di OpenAI (potete trovare degli audio di esempio seguendo il link in fonte). Non sono ancora noti i prezzi del servizio, ma secondo alcune fonti potrebbero risultare aggressivi per coloro che avranno accesso a Voice Engine (che ricordiamo non essere attualmente disponibile per il pubblico). Staremo a vedere.

Per il resto, rimanendo in casa OpenAI, potrebbe interessarvi approfondire il recente sorpasso di Claude 3 ai danni di GPT-4.

Cuffie Bluetooth, Auricolari Bluetooth 5.3 Wireless,5-7 h per tr è uno dei più venduti oggi su