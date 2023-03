I ricercatori di Microsoft hanno di recente presentato Kosmos-1, un nuovo modello multimodale in grado di analizzare i contenuti delle immagini, risolvere enigmi visivi ed eseguire il riconoscimento visivo del testo, oltre che completare i test del QI visivo.

Secondo quanto spiegato da Microsoft, l’IA multimodale in questione integra diverse modalità di input (testo, audio, immagini e video) e può dare un boost importante allo sviluppo di un’intelligenza artificiale generale (AGI) in grado di svolgere compiti più complessi allo stesso livello degli esseri umani.

“Essendo una parte fondamentale dell’intelligenza, la percezione multimodale è una necessità per raggiungere l’intelligenza generale artificiale , in termini di acquisizione di conoscenza e radicamento nel mondo reale” si legge nel documento, secondo cui “la lingua non è tutto ciò di cui hai bisogno: abbiamo la necessità di allineare la percezione con i modelli linguistici.”

Come si può vedere dall’immagine presente in calce, l’IA è riuscita a comprendere le immagini: può leggere l’orario indicato in una foto, ma anche capire il battito cardiaco di un’immagine di Apple Watch o effettuare l’addizione di due numeri presenti in una determinata fotografia.

Un aspetto interessante, evidenziato anche da Arstechnica, si tratterebbe di un progetto proprietario di Microsoft che non vede il coinvolgimento di OpenAI. Affinchè Kosmos-1 accetti l’input delle immagini, però, è necessario che i ricercatori traducano l’immagine in token comprensibili dall’IA.

Microsoft spiega di aver addestrato Kosmos-1 dai dati del web, inclusi alcuni estratti da The Pile e Common Crawl. Particolarmente interessante è la performance di Kosmos-1 su Raven’s Progressive Reasoning che misura il QI visivo attraverso una serie di forme e sequenze da completare. Kosmos-1 è riuscita a rispondere correttamente ad una domanda solo il 22% delle volte, una percentuale che sale al 26% dopo alcune messe a punto.

Microsoft ha già spiegato che prevede di rendere Kosmos-1 disponibile agli sviluppatori.