Dopo il lancio di Seeing AI, l’app rilasciata da Microsoft nel 2017 per aiutare gli utenti non vedenti descrivendo il mondo visto attraverso la fotocamera dello smartphone, ora l’azienda di Redmond ha aggiornato l’algoritmo potenziandolo a livelli mai visti prima e lo porterà anche su Word, PowerPoint e altri prodotti Microsoft.

Aumentare l’accessibilità è diventata una prerogativa per quasi tutte le aziende: gli sviluppatori dovrebbero infatti garantire agli utenti con disabilità di poter usare ogni prodotto senza troppi problemi. Saqib Shaikh, responsabile dell'ingegneria del software nel team AI di Microsoft, ha dichiarato: “Idealmente, tutti dovrebbero includere il testo alternativo per tutte le immagini nei documenti, sul Web, nei social media, poiché ciò consente alle persone non vedenti di accedere ai contenuti e partecipare alla conversazione. Ma, ahimè, ciò non accade sempre. Per questo motivo, ci sono diverse app che utilizzano i sottotitoli delle immagini per riempire il testo alternativo quando manca”.

Microsoft ha dunque deciso di lavorare su un nuovo algoritmo di didascalia delle immagini potenziato grazie alla piattaforma Azure e ad altri dataset come l’Open Images Dataset. Se attualmente Seeing AI può identificare oggetti domestici, leggere testi, descrivere scene e immagini in app come clienti di posta elettronica, social media e WhatsApp, e persino identificare amici, a breve l’app sarà in grado di descrivere in maniera più precisa anche la relazione tra tutti gli oggetti visualizzati, con un’efficacia doppiamente maggiore rispetto al sistema precedente in uso dal 2015.

Questo algoritmo è già stato testato tramite il benchmark di didascalia di immagini chiamato “nocaps”, costituito da oltre 166.000 didascalie scritte a mano dall’uomo riguardo circa 15.100 immagini prese dall’Open Images Dataset e che coprono scenari, cibo, persone, città e tanto altro ancora. I risultati ottenuti sono sensazionali: in un paper pubblicato a settembre, infatti, il nuovo codice ha ottenuto i punteggi più alti in assoluto mostrandosi come leader nel settore. Un esempio del suo utilizzo potete vederlo nell’immagine in calce all’articolo, dove l’IA fornisce varie descrizioni della medesima foto in base alle parole chiave raccolte analizzando lo scatto.

Va comunque fatto presente che l’algoritmo è eccellente ma non perfetto: a The Verge uno dei creatori di nocaps ha spiegato che "Il superamento delle prestazioni umane sui nocaps non è un indicatore del fatto che i sottotitoli delle immagini siano un problema risolto" e che il benchmark copre soltanto una piccola percentuale di tutti i concetti visivi possibili. Ma dati i miglioramenti di nocaps e dell’attività di didascalia delle immagini proprio grazie all’intelligenza artificiale, Microsoft può sicuramente affermare che i suoi algoritmi sono all’avanguardia.

Intanto l’azienda di Redmond ha annunciato che i suoi dipendenti potranno lavorare da casa in smart working in modo permanente, anche quando il lockdown causa coronavirus finirà. O ancora, secondo alcuni rumor Microsoft potrebbe riacquistare Nokia.