A poche settimane dal lancio di Claude 3, arriva la notizia che nella giornata di martedì il modello Claude 3 Opus di Anthropic ha superato per la prima volta GPT-4 di OpenAI su cui si basa ChatGPT su Chatbot Arena, la classifica di crowdsurcing utilizzata dai ricercatori d’intelligenza artificiale.

Subito dopo questo sorpasso, vari ricercatori sui loro account ufficiali X hanno pubblicato tweet tipo “RIP GPT-4” o “Il Re è morto”.

Si tratta però a suo modo di una notizia storica, dal momento che da quando GPT-4 è stato incluso nella Chatbot Arena, ovvero intorno al 10 Maggio 2023, è sempre stato in cima alla classifica, prima di questa sconfitta che rappresenta un momento storico per i modelli linguistici.

"Per la prima volta, i migliori modelli disponibili: Opus per compiti avanzati, Haiku per costi ed efficienza, provengono da un fornitore che non è OpenAI", ha raccontato ad Ars Technica il ricercatore indipendente Simon Willison. "Questo è rassicurante: tutti traiamo vantaggio da una varietà di sviluppatori in questo ambito. Ma GPT-4 ha più di un anno a questo punto, e c'è voluto quell'anno perché qualcun altro si mettesse al passo."

Il funzionamento di Chatbot Arena è molto semplice: all’utente viene presentata una casella di input della chat e due finestre che mostrano l’output di due LLM, senza alcuna etichetta. Gli utenti devono dare le loro valutazioni in base ai criteri che ritengono più idonei. Grazie a queste valutazioni, Chatbot Arena calcola i modelli migliori e compone la classifica.

