Maxine: l'intelligenza artificiale rivoluzionaria che traduce le lingue come in Star trek

INFORMAZIONI SCHEDA

Rocco Auriemma

25/03/2022, ore 22:43

Lavorare in smart working ci ha permesso di comprendere quanto i moderni mezzi di comunicazione siano una risorsa più che vantaggiosa. Tuttavia, ci è sempre parso che le ore passate in videochiamata con i nostri colleghi siano costantemente minate da fastidiosi problemi tecnici.

Grazie a NVIDIA, si sta lavorando ad un pacchetto software che ci permette di creare riunioni live streaming con quante più persone possibili (come su Facebook Rooms), con audio di qualità e privo di eco o altri rumori di sottofondo, come il cane del collaboratore che tanto detesti.

Al GTC (GPU Technology Conference), ovvero la conferenza globale che riunisce sviluppatori, ingegneri ed inventori, NVIDIA ha presentato “Maxine”, un kit di software che permette agli sviluppatori di creare a loro volta pipeline di effetti audio e video(insieme di programmi). Quest’ultimi avranno come finalità quella di eliminare, e quindi migliorare, tutte quelle “sbavature informatiche” che rendono le nostre chiamate più arzigogolate. Ecco cosa offre il pacchetto:

Apparato video:

Super risoluzione: genera un video con dettagli migliorati utilizzando le reti neurali AI che riduce i disturbi e preserva la trama con un ridimensionamento di alta qualità, fino a quattro volte.
Upscaler: offre video scalati ad alta velocità e con parametro di nitidezza regolabile.
Riduzione dei disturbi: rimuove i disturbi da compressione dal video codificato, preservando i dettagli originali;
Rimozione del rumore video: rimuove il rumore della fotocamera in condizioni di scarsa illuminazione introdotto nel processo di acquisizione video, preservando i dettagli.
Sfondo virtuale: segmenta una persona e applica la rimozione, la sostituzione o la sfocatura dello sfondo, basata sull'intelligenza artificiale.

Apparato della realtà aumentata

Tracciamento dei volti: rileva i volti umani nelle immagini e nei video e specifica la posizione e le dimensioni del riquadro di delimitazione.
Tracciamento dei punti di riferimento del viso: riconosce le caratteristiche e i contorni del viso, utilizzando 126 punti cardine e tiene traccia della posa della testa e della conformazione facciale, in tempo reale.
Face mesh: rappresenta un volto umano con un mesh 3D, con un massimo di 3.000 vertici e sei gradi di libertà.
Stima della posa del corpo: prevede e traccia 34 punti chiave del corpo umano in 2D e 3D. Comunemente utilizzato nel riconoscimento dell'attività, nel trasferimento del movimento e nelle interazioni virtuali in tempo reale.
Contatto visivo: simula il contatto visivo stimando e allineando lo sguardo con la telecamera. Una persona potrebbe leggere durante una conferenza senza che nessuno se ne accorga…
Audio2Face: anima un volto digitale 2D o 3D basata solo su un ingresso audio.

Apparato audio:

Rimozione del rumore: rimuove i rumori di fondo utilizzando modelli di intelligenza artificiale, preservando la voce naturale di chi parla.
Rimozione dell'eco ambientale: rimuove i riverberi dall'audio utilizzando ancora una volta l'AI avanzata, ripristinando la chiarezza della voce dell’oratore.
Super risoluzione audio: migliora la qualità audio in tempo reale sovracampionando il flusso di ingresso audio da 8kHz a 16kHz e da 16kHz a 48kHz di frequenza.
Cancellazione dell'eco acustico: annulla l'eco del dispositivo acustico in tempo reale dal flusso audio in ingresso. Con la tecnologia basata sull'intelligenza artificiale, si ottiene una cancellazione più efficace rispetto alla tradizionale elaborazione del segnale digitale.

Una buona alternativa alle videochiamate supportate da NVIDIA Maxine, può essere Facebook Portal Go, lo smart speaker con Alexa integrata!

FONTE: NVIDIA