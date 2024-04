In un'epoca in cui l'abbondanza di informazioni sembra inesauribile, paradossalmente, gli studiosi dell'intelligenza artificiale si scontrano con una realtà inattesa: la penuria di dati di qualità per l'addestramento. Un fatto emblematico che attesta l'esistenza di questo problema: ChatGPT che copia da YouTube. Ma c'è una soluzione?

Potrebbe. Ecco emergere l'idea dei dati sintetici, una soluzione apparentemente semplice per una problematica complessa. Alimentare i modelli di AI con dati prodotti da altri modelli potrebbe teoricamente risolvere la carenza di dati e, contemporaneamente, aggirare i problemi legati ai diritti d'autore. Tuttavia, l'entusiasmo iniziale si scontra con la pratica: aziende leader come Anthropic, Google e OpenAI stanno esplorando questo territorio inesplorato senza aver ancora raggiunto risultati definitivi.

Il concetto di "Habsburg AI", introdotto dal ricercatore Jathan Sadowski, illustra vividamente le sfide incontrate: un sistema così saturato dai risultati di altri modelli generativi da diventare metaforicamente un "mutante consanguineo", con caratteristiche esagerate e potenzialmente deformi. Questa metafora evidenzia i rischi di un eccesso di auto-riferimento nell'addestramento dell'intelligenza artificiale.

Un altro spunto di riflessione viene dal termine "Model Autophagy Disorder" (MAD), coniato da Richard G. Baraniuk della Rice University. MAD descrive un fenomeno per cui, dopo poche generazioni di auto-alimentazione, un modello AI può letteralmente "impazzire", perdendo ogni capacità di funzionamento normale. Questa osservazione mette in luce i limiti e i pericoli di un eccessivo ricorso ai dati sintetici.

Nonostante ciò, ci sono tentativi di navigare queste acque turbolente. OpenAI e Anthropic, per esempio, stanno sperimentando sistemi di controllo incrociato: un modello genera dati mentre un secondo ne verifica la validità. Anthropic nello speifico si distingue per la trasparenza nell'uso di dati sintetici, svelando come Claude 3 sia addestrato su dati generati internamente.

L'impiego di dati sintetici solleva una questione fondamentale: possiamo davvero insegnare all'AI a nutrirsi di sé stessa senza cadere in un circolo vizioso di distorsioni e inaffidabilità?

