Siamo arrivati al capitolo finale della nostra serie di speciali sull'integrazione di un'AI avanzata in un videogame, nel nostro caso Super Mario Bros. Nel precedente link troverete tutti i capitoli che riguardano l'implementazione di un algoritmo di machine learning che analizza i pixel dello schermo del gioco e deriva tutte le meccaniche che lo costituiscono. Abbiamo visto che mentre una parte dell'algoritmo analizza le variabili in ogni istante per capire quand'è che si innesca una certa regola (Mario si ferma in prossimità di un blocco o la sua caduta si arresta appena atterra su un piano) un'altra parte verifica che queste regole siano valide anche per i futuri frame. Infatti l'obiettivo del codice è prevedere cosa succederà su schermo in base alle meccaniche che ha acquisito analizzando dei video di gameplay e ogni volta che viene fatta una previsione ci sarà una parte dell'algoritmo che valuterà l'errore commesso: se questo errore è troppo alto allora deriverà nuove regole più precise, altrimenti continuerà ad usare quelle vecchie.

Un'AI di questo tipo è estremamente dispendiosa dal punto di vista dei calcoli perché non solo nella parte dell'apprendimento deve analizzare tutti i frame e quindi tutte le variabili su schermo (dove si trova Mario, la sua velocità, dove sono tutti gli altri oggetti, ... ) per capire le meccaniche, ma una volta acquisite deve usarle per prevedere quali saranno tutti i pixel dei prossimi frame. I ricercatori che hanno implementato questa AI hanno lasciato un iMac del 2013 a fare tutti questi calcoli per due settimane solo per l'analisi di un singolo livello di gioco. Chiaramente con la giusta ottimizzazione si può velocizzare il processo (ad esempio parallelizzando i calcoli) ma per ora non è plausibile pensare all'implementazione di un'AI avanzata nei videogame attuali. Se per le prossime console si deciderà di integrare degli acceleratori hardware per i processi di machine learning come standard allora si potrà cominciare a vedere qualche implementazione interessante. Ma quali sono i risultati della ricerca degli studiosi del Georgia Institute of Technology?



Valutazione dell'algoritmo

Lo scopo fondamentale del learning engine sviluppato dai ricercatori del Georgia Institute of technology è quello di prevedere correttamente i frame del gioco con un errore relativamente basso, che non deve gravare troppo sui calcoli ma risultare comunque preciso. Chiaramente qualsiasi tipo di algoritmo che prevede dei frame non sarà mai infallibile al 100%, anche solo per il fatto che la soglia di valutazione dell'errore non è stata impostata al minimo. Dunque per fare un paragone che permetta di misurare la precisione dell'engine creato i ricercatori lo hanno messo a confronto con una convolutional neural network (CNN), che non è altro che un tipo di algoritmo di machine learning largamente usato in varie applicazione (Google sfrutta CNN un po' ovunque e ne avete la dimostrazione quando vi arrivano consigli o quando individua persone o oggetti nelle vostre foto). Sia per l'engine che per la CNN sono stati inseriti due video come input, entrambi del livello 1-1: il primo video di gameplay appartiene ad uno speedrunner, mentre il secondo ad un giocatore con un approccio più esplorativo, così da insegnare due stili differenti ad entrambi gli algoritmi. Il risultato finale non è netto ma permette comunque di trarre delle conclusioni: la CNN ha ottenuto risultati più consistenti, con un numero di errori medi per frame abbastanza stabile rispetto all'engine derivato, che a volte si comporta peggio ma riesce comunque ad ottenere mediamente un numero di pixel errati più basso.

La predizione di un frame, però, è fine a sé stessa se non applicata in un contesto specifico e l'unico a cui hanno pensato i ricercatori è quello del gameplay (che però non esclude altre applicazioni, visto che l'algoritmo è in grado di derivare tutte le meccaniche del gioco). Con le giuste modifiche è stato possibile fare in modo che l'engine derivato da Super Mario Bros. insegnasse letteralmente come giocare ad un agente (un'AI anche in questo caso, tenendo bene a mente che si parla sempre di linee di codice). La differenza tra questo caso di apprendimento e quello in Dota 2 deriva dall'approccio iniziale dell'AI: il learning engine può insegnare all'agente direttamente le regole del gioco, mentre il bot in Dota 2 deve cominciare ad imparare giocando letteralmente a caso, derivando dei meccanismi di gioco pian piano. Per fare il paragone è stato sviluppato un meccanismo in cui l'agente che gioca è stato premiato per ogni azione positiva (finire il livello) e penalizzato per ogni azione negativa (la morte di Mario): in questo modo l'algoritmo capisce che nel problema di movimento del personaggio le azioni che lo portano a perdere una vita devono essere disincentivate. Poi è stato creato un altro agente che invece di giocare secondo questo meccanismo di premio avesse come regole quelle derivate dal learning engine che vi abbiamo descritto nella serie di articoli. Anche in questo caso il learning engine ha avuto la meglio, anche se il livello sul quale è stato testato è stato solamente il primo.



Conclusioni

L'algoritmo che vi abbiamo descritto in questa serie di articoli è solamente uno dei tanti che sono stati sviluppati (e che stanno ancora sviluppando) per i videogames. Da una parte i ricercatori sfruttano i videogiochi per migliorare le AI ed applicarle in altri contesti, dall'altra tutti i risultati ottenuti potrebbero essere sfruttati un domani in giochi veri e propri, costituendo una rivoluzione non indifferente: qualunque NPC o qualsiasi routine scriptata gestita dalla CPU potrebbe assumere letteralmente vita propria. Si potrebbero immaginare RPG dove i personaggi che abitano una città costruiscono i propri dialoghi in base alle azioni compiute o alle risposte date (senza che i programmatori le abbiano previste) o a livelli di gioco che piuttosto che essere completamente fissi o random vengono generati in modo da mettere in crisi lo stile di gioco del giocatore che l'engine ha analizzato. Nell'ambito degli strategici in tempo reale come Stracraft II la rivoluzione potrebbe essere devastante e consentire al giocatore umano di percepire l'AI nemica come un vero e proprio avversario umano che crea delle strategie. Le applicazioni sono letteralmente infinite, l'unico vero limite per ora è la potenza delle console e dei PC davvero limitata, ma già dalla prossima generazione potrebbe cominciare a muoversi qualcosa.