Solo qualche giorno fa, su queste pagine abbiamo riportato la minaccia del CEO di YouTube ad OpenAI. Un nuovo rapporto pubblicato dal New York Times a ridosso del weekend, ha diffuso alcune nuove informazioni a riguardo.

Come si legge nell’articolo pubblicato dal New York Times, nel disperato tentativo di ottenere dati per il nuovo modello di GPT-4, OpenAi avrebbe utilizzato il nuovo modello di trascrizione audio denominato Whisper per trascrivere oltre un milione di ore di video di YouTube da utilizzare per addestrare GPT-4. Il Times spiega che tutto ciò sarebbe avvenuto nonostante l’azienda fosse a conoscenza della discutibilità della pratica. Anche il presidente di OpenAI, Greg Brockman, sarebbe stato personalmente coinvolto nella raccolta di dati.

L’articolo spiega anche che la società sarebbe ricorsa a questa pratica dopo che nel 2021 aveva esaurito le scorte di dati utili: proprio per tale motivo avrebbe pensato di trascrivere video, podcast ed audiolibri di YouTube dopo aver esaminato altre risorse.

La portavoce di OpenAI, Lindsay Held, parlando con The Verge, ha confermato che la società cura set di dati “unici” per ciascuno dei suoi modelli per “consentirgli di comprendere il mondo” e mantenerli competitivi. Nella mail, la portavoce ha anche aggiunto che la società usa “numerose fonti tra cui dati disponibili al pubblico e partnership per dati non pubblici”, ma al contempo sta cercando di generare dei propri dati sintetici.

In risposta, il portavoce di Google ha dichiarato a The Verge che la società ha avuto modo di vedere i “rapporti non confermati” sulle attività di OpenAI ed ha aggiunto che “sia i nostri file robots.txt che i Termini di servizio vietano lo scraping o il download non autorizzato di contenuti YouTube”.

Fonti del Times riferiscono che anche Google avrebbe utilizzato le trascrizioni da YouTube, ed il portavoce Matt Bryant ha affermato che l'azienda ha addestrato i suoi modelli "su alcuni contenuti di YouTube, in conformità con i nostri accordi con i creatori di YouTube".

