Qualche giorno fa su queste pagine abbiamo riportato la notizia del nuovo sistema d’IA di Facebook in grado di creare video partendo dal testo. Ebbene, oggi è arrivata la risposta di Google che ha lavorato su due sistemi simili, che utilizzano approcci diversi.

Imagen Video si basa su una serie di tecniche precedentemente testate da Google è in grado di generare clip partendo da un video. I risultati non sono perfetti, ma il colosso dei motori di ricerca ha affermato che si tratta di un passo in avanti significativo verso un sistema con un “alto grado di controllabilità” e conoscenza del mondo, che si traduce nella capacità di generare filmati in una gamma di stili differenti. Imagen Video si basa su Imagen di Google, un sistema simile a DALL-E che genera nuovi dati partendo da un set di campioni esistenti, che si migliorano col passare del tempo. Google ha spiegato che Imagen Video è stato addestrato su 14 milioni di coppie video-testo e 60 milioni di coppie composte da immagini e testo, nonchè sui dati LAION-400M disponibili pubblicamente. Nei test effettuati, l’IA è stata in grado di creare video in stile Van Gogh, ma l’aspetto che più ha impressionato è la comprensione della profondità e tridimensionalità dei soggetti: questo ha consentito ad Imagen Video di creare video come i voli dei droni che ruotano attorno o catturano gli oggetti da diverse angolazioni.

Il team di ricerca di Google ha anche presentato un altro modello text-t-video battezzato Phenaki che può creare video più lunghi partendo da un testo più complesso ed articolato. Un esempio può essere visto direttamente nell’articolo speciale pubblicato da The Verge, oltre che sul sito ufficiale di Phenaki. Quest'ultimo, a differenza di Imagen Video, si sofferma sulla coerenza e la lunghezza dei filmati e non sulla qualità.