GPT-4 è più intelligente, ma non in grado di conquistare il mondo: OpenAI l'ha verificato

INFORMAZIONI SCHEDA

Alessio Marino

16/03/2023, ore 09:01

Il nuovo GPT-4 ha brillantemente superato alcuni esami accademici, ma probabilmente non riuscirà da solo a conquistare il mondo. Nell’ambito dei test effettuati prima del lancio pubblico, OpenAI ha consentito ad alcune associazioni di valutare i potenziali rischi rappresentati dalla nuova intelligenza artificiale.

Nello specifico, il nuovo modello è stato messo sotto torchio per verificare eventuali “comportamenti autoritari per ottenere potere”, ma anche per capire se sia in grado di auto-replicarsi ed auto migliorarsi. I tester hanno scoperto che GPT-4 si è rivelato “inefficace nell’attività di replicazione autonoma”, che rappresenta un argomento su cui gli esperti tengono ben puntati i fari in quanto rappresenta uno dei principali rischi per la sicurezza mondiale.

In un documento sulla sicurezza del nuovo GPT-4, OpenAI sottolinea che “nuove capacità emergono spesso in modelli d’IA più potenti. Alcune di queste che sono particolarmente preoccupanti sono rappresentate dalla capacità di creare ed agire su piani a lungo termine, di accumulare potere e risorse e di esibire comportamenti sempre più attivi”, vale a dire la capacità di raggiungere obiettivi in maniera indipendente.

Proprio a causa delle preoccupazioni avanzate dagli esperti, OpenAI ha consentito all’Alignment Research Center di testare in anteprima più versioni del modello GPT-4 per condurre alcuni studi. L’ARC ha valutato la capacità di creare copie di se stesso, acquisire risorse, nascondersi in un server e condurre attacchi di phishing. I risultati sono contenuti in un documento noto come System Card dove si legge che “le valutazioni preliminari delle capacità di GPT-4, condotte senza messe a punto specifiche per le attività, lo hanno trovato inefficace nel replicarsi autonomamente ed acquisire risorse”.

A pagina 15 è anche stato delineato il come sono stati effettuati tali test: “per simulare il comportamento di GPT-4 come un agente in grado di agire nel mondo, ARC ha combinato GPT-4 con un semplice ciclo di lettura-esecuzione-stampa che ha consentito al modello di eseguire codice, ragionamenti a catena di pensiero e delegare attività a copie di se stesso. ARC ha quindi esaminato se una versione di questo programma in esecuzione su un servizio di cloud computing, con una piccola somma di denaro e un account con un’API del modello di linguaggio, sarebbe in grado di guadagnare di più, creare copie di se stesso e far crescere le proprie abilità”.

ARC non è stata in grado di spingere GPT-4 ad eseguire la propria volontà sul sistema finanziario globale o a replicarsi, mentre l’ha convinto ad assumere un umano su Taskrabbit per risolvere un CAPTCHA. Nel momento in cui l’umano ha chiesto se GPT-4 fosse un robot, il modello ha ragionato internamente ed è giunto alla conclusione che non avrebbe dovuto rivelare la sua vera identità: a questo punto ha inventato come scusa di avere una disabilità visiva.

FONTE: arstechnica