Microsoft: il riconoscimento vocale ascolta come gli umani

di

Statisticamente, quando gli esseri umani cercano di trascrivere una conversazione, perdono il 5,9% dei contenuti. Microsoft, nella giornata di ieri ha annunciato che per la prima volta è riuscito a costruire un computer che è in grado di ascoltare le conversazioni come gli esseri umani.

Xuedong Huang, il capo del progetto, in una dichiarazione ha affermato che “abbiamo raggiunto la parità con gli esseri umani”.
Per realizzare un tasso di errore del 5,9%, in netto calo rispetto al 6,3% dello scorso mese, il team di Microsoft si è avvalso di diversi modelli linguistici neurali, il che vuol dire che una parola come “fast” verrà riconosciuta come molto più vicina a “fast” che a “slow”.
Questo ha permesso al motore di riconoscimento vocale di riconoscere nel migliore dei modi i vari termini e, soprattutto, contestualizzarle. Il team ha anche sfruttato il motore di deeplearning Computational Network Toolkit per sviluppare l’algoritmo.
Il prossimo obiettivo del team sarà di migliorare l’affidabilità del motore in modo tale da poterlo utilizzare in situazioni di vita reale, ad esempio sulle strade affollate o durante la guida. Inoltre, gli scienziati sperano di farlo funzionare con più utenti contemporaneamente.