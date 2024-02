Sono passati pochi giorni dalla presentazione di Sora da parte di OpenAI, l’IA che ha stupito a lasciato tutti a bocca aperta per la sua incredibile capacità di generare video ultra realistici in pochi minuti, ma non tutti sono d’accordo sulle sue potenzialità.

Yann LeCun, il capo scienziato della divisione IA di Meta, infatti, non si è detto molto colpito dal modello text-to-video. LeCun in particolare contesta alcune affermazione di OpenAI secondo cui Sora porterà alla fine di “simulatori generici del mondo fisico”, e se così fosse a detta del ricercatore di Meta l’approccio di OpenAI è completamente sbagliato.

"Modellare il mondo per l'azione generando pixel è altrettanto dispendioso e destinato al fallimento quanto l'idea in gran parte abbandonata dell’analisi per sintesi” scrive LeCun su un post pubblicato sul proprio account X. Dichiarazioni importanti, che arrivano da quello che secondo molti è uno dei padrini dell’intelligenza artificiale, che mai prima d’ora aveva criticato il lavoro portato avanti dai concorrenti.

Secondo LeCun, l’approccio di Sora che genera pixel da variabili latenti esplicative sarebbe inefficiente e non permette di affrontare l’incertezza che deriva dalle previsioni di uno spazio 3D, che è caratterizzato da una serie di variabili molto complesse. Sostanzialmente, quindi, ritiene che i modelli come Sora stanno cercando di dedurre troppi dettagli non rilevanti non porteranno a nulla: l’esempio è quello di una persona che vuole calcolare la traiettoria di un pallone da calcio prendendo in esame come entra in gioco ogni materiale da cui è composto, piuttosto che concentrarsi esclusivamente sulla massa e velocità della palla.

LeCun in un secondo post sottolinea che “non c'è niente di sbagliato in questo se lo scopo è effettivamente generare video", ma “se lo scopo è capire come funziona il mondo, è una proposta desinata a fallire”.

Tale approccio si è rivelato vincente per modelli linguistici come ChatGPT, dal momento che il “testo è discreto con un numero finito di simboli”, ma la simulazione del mondo è molto più complessa.