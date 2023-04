Mentre il lancio di GPT-5 per ChatGPT si allontana, una nota testata giornalistica americana ha realizzato un bellissimo sito web interattivo che ci mostra quali sono le fonti utilizzate da ChatGPT e dall'IA per "imparare" quante più informazioni possibili, in modo da dare risposte esaustive e complete agli interlocutori.

Il Washington Post ha realizzato una pagina web interattiva (consultabile al link sul nome della testata o in calce a questa news) con la quale spiega quali fonti sul web vengono usate da Google e dagli altri "costruttori" di IA per il training dei loro Chatbot. Il giornale riporta che, a differenza degli umani, i Chatbot non "capiscono" ciò che dicono: essi possono mimare il parlato umano grazie all'IA, ma le loro informazioni derivano dall'apprendimento di tantissimi testi sparsi sul web.

Il giornale americano ha dunque spiegato di aver analizzato il dataset Google C4, che comprende la bellezza di 15 milioni di siti web utilizzati da Google per T5 e Bard e da Facebook per il suo modello linguistico LLaMA. Manca dunque il dataset di OpenAI per ChatGPT, ma il Washington Post ipotizza che esso sia pressoché identico a quelli di Google e Facebook.

Potete dare un'occhiata ai risultati del Washington Post nel sito web interattivo che abbiamo linkato in precedenza, ma è interessante scoprire che tra le fonti principali abbiamo Google Patents e Wikipedia, rispettivamente al primo e al secondo post tra le più utilizzate dall'IA. Wikipedia la conosciamo tutti, mentre Google Patents è la piattaforma che si occupa di raccogliere i testi dei brevetti di tutto il mondo. Terzo posto per Scribd.com, una enorme biblioteca digitale con svariati libri e riviste in versione full-text.

Preoccupa invece la presenza di database di dati di persone fisiche, come ColoradoVoters.info e FLVoters.com, che contengono i dati personali degli elettori registrati in Stati come la Florida o il Colorado. I dati degli elettori, negli Stati Uniti d'America, sono pubblici, ma la loro presenza tra le informazioni fornite in pasto all'IA potrebbe rivelarsi decisamente problematica in termini di privacy.

La più grande categoria di siti web visitati dall'IA, comunque, comprende le aziende e i servizi per queste ultime, gli ecommerce e le industrie di vario tipo di tutto il mondo. Seguono la tecnologia, le news, l'arte e l'intrattenimento e la scienza e la salute. Tra i siti web più visitati nella categoria "business and industrial", inoltre, troviamo piattaforme assai note come Kickstarter e Patreon, ma anche il sito web di consigli di investimento Fool.com.