L'IA guarda i video di YouTube al posto nostro: ma in che senso?

Google Bard dispone ora di un'estensione per YouTube che può "scansionare" i video alla ricerca di informazioni: l'abbiamo messa alla prova.

L'IA guarda i video di YouTube al posto nostro: ma in che senso?
Articolo a cura di

Abbiamo inaugurato il 2023 su queste pagine con un'intervista a ChatGPT, quando a conoscere il chatbot di intelligenza artificiale erano solamente gli appassionati più attenti del mondo Tech. Giunti alla conclusione dell'anno, possiamo iniziare a tirare le somme e appare evidente che di acqua sotto i ponti ne sia passata parecchia: basti pensare anche solamente al recente licenziamento e dietrofront di Sam Altman.
Non è però di questo che vogliamo parlare oggi, e neanche di ChatGPT: l'obiettivo è quello di dare un'occhiata a una novità non di poco conto approdata in questo periodo su Google Bard, l'IA di Google che ora può "scansionare" i video di YouTube. Ma cosa significa e come funziona nel concreto?

Non ho tempo per seguire quel podcast

Ultimamente, anche in Italia, vanno forte alcuni podcast dalla durata che può arrivare a svariate ore. Si tratta di contenuti che evidentemente interessano e che infatti vengono visti (o messi in sottofondo) da un bacino di pubblico piuttosto ampio, tanto che persino alcune celebrità "tradizionali" hanno puntato gli occhi su questo settore; tuttavia, vista anche la frequenza con cui usualmente vengono pubblicate le puntate di determinati podcast, può capitare che non si possa avere il tempo materiale per ascoltarle nella loro interessa.
In questo contesto, la nuova feature di Bard consentirebbe all'IA di "scansionare" il contenuto video per ottenere al volo le informazioni chiave e gli argomenti più interessanti affrontati dagli interlocutori, anche solo per capire se il contenuto potrebbe effettivamente risultare di nostro interesse.

Per procedere al nostro test, abbiamo innanzitutto dovuto cambiare la lingua preferita legata all'account Google, cosa che si può fare tranquillamente dalla sezione "Preferenze generali per il Web", visto che le estensioni di Google Bard per il momento risultano accessibili solamente in lingua inglese.
Collegandosi poi al portale Web del chatbot di BigG, si viene introdotti alle estensioni. Se tutto è andato a buon fine, in alto a destra comparirà l'icona del puzzle. A questo punto, dovremo andare nella pagina delle estensioni di Google Bard, verificando che la spunta relativa a YouTube sia effettivamente attiva.
Ed è qui che inizia il nostro test.

Il primo link che abbiamo voluto dare in pasto a Bard riguardava una videoguida in inglese su come fare una cartolina di Natale. Si nota subito che attualmente la funzione, che d'altronde è in fase sperimentale, richiede dei video precisi per funzionare.
Sia il nostro test relativo alla cartolina di Natale che altri sono infatti falliti, dato che Bard ha continuato a rispondere: "mi dispiace, ma non riesco ad accedere a questo contenuto di YouTube. Ciò è possibile per diversi motivi, ma i più comuni sono: non è un collegamento YouTube valido, il contenuto è potenzialmente non sicuro oppure il contenuto non dispone di un file di sottotitoli che posso leggere".

Compreso che attualmente si è ben lontani da una feature completa, ci siamo dunque arresi all'utilizzo di uno dei prompt predefiniti proposti dal chatbot, ovvero quello dei "video insights". Lasciato il suggerimento di base intatto, relativo a un video YouTube ufficiale di Google, siamo finalmente riusciti a ottenere un riassunto. Tuttavia, in queste condizioni non si può affatto parlare di un test indicativo, quindi siamo andati alla ricerca di altri video funzionanti con questa feature, per quanto sia necessario a quanto pare che il video in questione disponga di un file di sottotitoli leggibile da Bard - insomma, "scansione" dei video YouTube fino a un certo punto.

Fortunatamente, però, molti video dispongono anche di sottotitoli generati automaticamente. Abbiamo dunque provato a chiedere al chatbot cosa accade nella storica intervista a Eminem interrotta da 50 Cent. La risposta, finalmente, è stata generata: "in questo video, Eminem parla del suo nuovo film. Inizialmente doveva recitare nel film, ma alla fine non l'ha fatto. Tuttavia, è rimasto fortemente coinvolto nel progetto ed è molto soddisfatto del risultato. Parla anche della colonna sonora del film, che è molto speciale per lui". Un riassunto tutto sommato corretto.
Visto che si basa sui sottotitoli, però, Bard non può rilevare l'interruzione, solamente visiva, di 50 Cent: a conferma di ciò, a una successiva domanda in merito a cosa c'entrasse 50 Cent nel video, Bard ci ha fornito una risposta che non ha nulla a che vedere con l'interferenza che si vede nel contenuto stesso.

Compreso meglio il funzionamento attuale dell'estensione, abbiamo dunque voluto spingerci oltre e provare a fornire al chatbot un video podcast. Quale migliore occasione per inviare in chat il link alla recente puntata del The BSMT by Gianluca Gazzoli con James Blunt, che è di fatto un contenuto in inglese con tanto di sottotitoli generati automaticamente?
La risposta di Google Bard: "Questo video riguarda un'intervista con James Blunt. James Blunt è un cantautore inglese. È conosciuto soprattutto per le sue canzoni "You're Beautiful" e "Goodbye My Lover". Nell'intervista, James Blunt parla della sua vita e carriera. Descrive anche il tempo trascorso nell'esercito e racconta della sua carriera musicale e della sua famiglia. Dà inoltre consigli ai giovani artisti". Un riassunto generale che, anche in questo caso, può starci. Tra i punti chiave, l'intelligenza artificiale indica che "James Blunt era nell'esercito prima di diventare musicista", cosa di cui effettivamente si parla attorno al minuto 10:00. Un altro punto saliente indicato da Bard è che l'artista "si ispira alle sue esperienze di vita quando scrive canzoni".

Attorno al minuto 05:00, Blunt afferma di aver scritto le nuove canzoni basandosi su ciò che sta accadendo nella sua vita. Si passa poi al punto "Pensa che la musica significhi unire le persone", cosa che effettivamente viene detta attorno al minuto 23:00, quando il cantautore inglese spiega che "la musica è unire sconosciuti".
Infine, l'ultimo punto indicato dal chatbot è legato al fatto che Blunt "consiglia ai giovani artisti di scrivere canzoni che partono dal cuore". Questo è effettivamente un riassunto del discorso effettuato attorno al minuto 24:00.
Pur trattandosi di un video con sottotitoli in inglese generati automaticamente, Bard è effettivamente riuscito a raccogliere diversi punti salienti dell'intervista.

Per concludere questo test preliminare, abbiamo voluto provare a spingerci ancora più in là.
Visto che tutto si basa, a quanto pare, sui sottotitoli, abbiamo provato a offrire a Bard un contenuto in italiano. Abbiamo fornito al chatbot il link alla puntata di The BSMT con Fabri Fibra, chiedendo se al suo interno si parlasse del claim "Io odio Fabri Fibra". Purtroppo, però, attualmente Bard risponde di non poter accedere al contenuto, magari anche perché in questo caso i sottotitoli sono solamente in italiano.
Va detto che in linea generale non esattamente tutti i contenuti sembrano risultare riassumibili, nonostante la presenza di sottotitoli in inglese. Ad esempio, non siamo riusciti a farci riassumere la puntata del video podcast Growing Up Italian con la rapper ANNA, visto che il chatbot risponde sempre di non poter accedere al contenuto.

Insomma, per quanto la nuova estensione di Google Bard per YouTube si sia dimostrata interessante in diversi test specifici che abbiamo condotto, le limitazioni attualmente sono tante e il rischio allucinazioni è dietro l'angolo, dato che in buona parte dei casi di mezzo ci sono sottotitoli generati automaticamente, già di base non esattamente la più precisa delle soluzioni, che devono poi essere ulteriormente manipolati dall'intelligenza artificiale.
Potrebbero dunque venire generati dei riassunti corretti per sommi capi, che però magari includono informazioni parzialmente errate, anche in modo subdolo, cosa che potrebbe "trarre in inganno" l'utente.
Le potenzialità però ci sono, nonostante ci sia ancora parecchia strada da fare e vada detto che per il momento manchi la scansione visiva del contenuto, cosa che in determinati contesti potrebbe offrire dettagli importanti a livello di comprensione.

In conclusione, questo primo tentativo di far interpretare all'intelligenza artificiale i video di YouTube rappresenta un'idea interessante e che, se sviluppata come si deve, potrebbe riscrivere in larga parte il modo in cui fruiamo dei contenuti Web.
Il dibattito su quanto sia giusto affidare all'IA un compito del genere è appena iniziato ma, al netto dell'accuratezza di quanto descritto, bisogna anche pensare che in questo modo un utente sta usufruendo di un contenuto senza guardare pubblicità e senza nemmeno "vederlo realmente".
Questo può essere un bene per l'utente alla ricerca di modi per recuperare tempo, soprattutto se le informazioni sono corrette, ma allo stesso tempo potrebbe rappresentare un problema per il Content Creator che ha caricato il video, che si sostiene proprio grazie all'effettiva visione dello stesso da parte degli utenti.

Per il momento si tratta di una feature con un bacino d'utenza limitato, visto che bisogna attivare una specifica estensione accessibile solamente in fase sperimentale e in inglese, ma anche portali internazionali come The Verge hanno già fatto notare che, se Google vorrà effettivamente renderla disponibile per tutti, probabilmente dovrà quantomeno rispondere alle richieste dei Content Creator.
Questo discorso, tra l'altro, vale per tutte le tipologie di contenuti ed è uno dei grandi punti di domanda del mondo dell'intelligenza artificiale.