L’IA di Google ora è in grado di leggere il labiale degli umani

di

I ricercatori della divisione DeepMind di Google, insieme ai ricercatori dell’Università di Oxford, hanno utilizzando l’intelligenza artificiale per creare un software in grado di leggere le labbra degli utenti più preciso ma sviluppato.

Utilizzando migliaia di ore di filmati TV della BBC, gli scienziati hanno addestrato la rete neurale, che è in grado di effettuare la trascrizione delle riprese video con una precisione del 46,8%, nettamente superiore rispetto al 12,4% di un essere umano.
La ricerca segue uno studio condotto dall’Università di Oxford all’inizio del mese. Utilizzando delle tecniche innovative, gli scienziati erano stati in grado di creare un programma in grado di leggere il labiale chiamato LipNet, con un’accuratezza del 93,4%, ma questo era stato testato solo su filmati appositamente registrati per effettuare i test.
In confronto, il software DeepMind, noto come “Watch, Listen, Attend, and Spell” è stato testato su filmati molto più impegnativi, come ad esempio i dibattiti politici.
I ricercatori hanno utilizzato oltre 5.000 ore di filmati, per un totale di 118.000 frasi e 17.500 parole. DeepMind suggerisce che il programma potrebbe avere una serie di applicazioni, e potrebbe aiutare le persone con problemi di udito a comprendere le conversazioni, ma anche per trascrivere i film muti o permettere di controllare gli assistenti digitali come Siri o Alexa.

L’IA di Google ora è in grado di leggere il labiale degli umani