Google, ecco l'IA che ricostruisce le fotografie come nei Film

Come nei migliori film degli anni '80 e '90, oggi è possibile ricostruire le fotografie anche a partire da una manciata di pixel con SR3.

Google, ecco l'IA che ricostruisce le fotografie come nei Film
Articolo a cura di

Avete presente quando Deckard in Blade Runner faceva quegli incredibili zoom alle polaroid sfocate? E le miriadi di targhe ricostruite da una manciata di pixel in CSI? E cosa pensereste se vi dicessimo che queste tecnologie esistono già? No, non è uno scherzo e sì, si basa su concetti che ormai usiamo letteralmente nel quotidiano. Entriamo di prepotenza nel mondo del machine learning, la migliore occasione che abbiamo al momento per raggiungere il fotorealismo nei videogiochi. Oggi, però, non parleremo di videogiochi, bensì di un algoritmo dal nome altisonante, Super Resolution via Repeated Refinements, sviluppato dal Brain Team di Google. Siete pronti a saperne di più?

Come funziona SR3

SR3, o Super Resolution via Repeated Refinements, è un moderno approccio ai modelli di diffusione e alla ricostruzione di immagini in alta definizione partendo da pochissimi pixel, il cui scopo ovviamente è quello di ottenere risultati di upscaling di gran lunga superiori a qualsiasi altra metodica fin ora disponibile.

Il materiale che vi mostreremo parla chiaro, come potrete osservare dai video di prova pubblicati dai ricercatori. L'algoritmo infatti riesce a ricostruire, in modo assolutamente credibile, immagini a risoluzione 1024x1024 pixel a partire da un input di appena 64x64. È abbastanza evidente come i risultati ottenuti siano semplicemente fuori scala, ma cerchiamo di comprendere meglio l'intero processo.
SR3 inizia a lavorare l'immagine aggiungendo rumore video al punto da renderla non più riconoscibile all'occhio umano. A questo punto entra in gioco l'input a bassa risoluzione, che viene usato come guida, per rimuovere i difetti del rumore video aggiunti artificialmente e ricostruire l'immagine in alta definizione. In poche parole, sfruttando esempi già a nostra disposizione, quello che accade è leggermente più complesso di quanto spiegato nel nostro speciale sulle tecnologie NVIDIA RTX.

In quel caso si parlava del processo di denoising, che, sulla base di un set di immagini di allenamento, poteva eliminare il rumore generato dalla processazione dell'illuminazione in Ray Tracing a bassa risoluzione. Qui si aggiunge invece un altro tassello. In maniera sistematica, infatti, SR3 ha l'obiettivo di corrompere il suo training set, applicarne il rumore all'immagine a bassa risoluzione e ridistribuire le informazioni generate seguendo come guida i pochi pixel a disposizione.

Quanto è efficace?

Nell'analisi dei risultati, il gruppo di ricerca di Google, il cui paper ufficiale è disponibile a questa pagina, ha condotto uno studio di valutazione umana sfruttando il metodo di scelta forzata di due alternative, un approccio psicofisico che consente di valutare il livello di sensibilità di un essere umano a un determinato stimolo. In particolare, ai soggetti dello studio è stato chiesto di scegliere tra due immagini quella scattata da una fotocamera, in una scelta tra un'immagine di riferimento realmente scattata e quella invece ottenuta mediante il metodo SR3, sia a 128x128 che a 256x256, elaborata da un input 16x16. Ebbene, con un tasso di confusione ideale del 50%, SR3 è in grado di arrivare al 47,4% con un target di risoluzione conservativo, quindi 128x128, superando di gran lunga i metodi all'avanguardia attualmente a disposizione, come FSRGAN e l'ottimo PULSE. A risoluzione target 256x256 il tasso di confusione scende al 39% ma si tratta comunque di un risultato notevole, soprattutto alla luce dell'immagine di partenza.

Appare chiaro che, sfruttando le potenzialità del machine learning, ci stiamo avvicinando sempre di più a quelle scene di fantasia in cui investigatori e tecnici tentavano di dare una svolta ad indagini intricatissime, con procedure che apparivano goffe o persino ridicole a chi masticasse un minimo di informatica, ma che oggi, all'improvviso, smettono di sembrare impossibili. Questi risultati incredibili sono l'ennesima dimostrazione di quanto l'intelligenza artificiale abbia accelerato il processo tecnologico andando ben oltre la legge di Moore. Il riferimento, a questo punto, non può non andare all'ottimo DLSS di NVIDIA, altra tecnica basata sul deep learning che permette alla scheda video di costruire un'immagine a bassa risoluzione, proiettando a schermo una ricostruzione a risoluzione più elevata, un frame alla volta, in tempo reale, ottenuta allo stesso modo mediante modelli di intelligenza artificiale distribuiti tramite driver.