I lavori sull'IA in quel di Menlo Park procedono spediti: è passato solo un mese dalla release dell'IA LLaMA 2 di Meta e Microsoft, ma nel mentre Mark Zuckerberg e i suoi ingegneri hanno continuato a lavorare sui propri modelli linguistici. Ora pare che Meta abbia preparato il miglior traduttore multimodale al mondo, realizzato grazie all'IA.

Stando a quanto riporta Engadget, infatti, Meta ha sviluppato SeamlessM4T, un nuovo modello linguistico che viene definitivo come "un modello multilinguistico capace di operare in multitasking che può tradurre e trascrivere senza soluzione di continuità tra parlato e testo". In questo modo, il software può risolvere uno dei problemi più comuni agli altri traduttori, come Google Translate.

Questi ultimi, infatti, sono spesso gestiti da modelli specializzati in una sola operazione, come la traduzione di un testo scritto da una lingua all'altra o la trascrizione del parlato in una data lingua. Quando a questi modelli viene richiesto di eseguire due operazioni contemporaneamente (per esempio, tradurre il parlato di una lingua in quello di un'altra, oppure trascrivere un parlato e poi tradurlo), i risultati sono spesso pessimi, anche a causa dell'elevata quantità di operazioni richieste per processi simili.

Invece, Seamless M4T lavora su più di 100 lingue diverse e può effettuare, anche in simultanea, attività di conversione text-to-speech e speech-to-text, ma anche traduzione text-to-text e speech-to-speech. Le funzioni che prevedono un output testuale, però, supportano per ora solo 36 lingue, tra le quali troviamo l'inglese, lo spagnolo e il tedesco.

Utilizzando la tecnologia di encoding audio BERT 2.0 e il vocoder HiFi-GAN per le sue risposte "parlate", Seamless M4T potrebbe essere una rivoluzione nel campo della traduzione simultanea, rendendo possibile parlare con chiunque e in qualsiasi lingua senza alcun problema di comprensione reciproca.