Di Apple GPT si parla già da tempo, ed una nuova ricerca pubblicata oggi non fa altro che avvicinarne il lancio. I ricercatori che si occupano d’IA presso i laboratori di Apple infatti hanno annunciato di aver compiuto un passo in avanti fondamentale nell’implementazione dei modelli linguistici di grandi dimensioni su iPhone ed altri dispositivi.

Questa tecnica non tiene conto della memoria limitata di tali devices ed utilizza la memoria flash. Come si può leggere direttamente nel documento di ricerca, gli autori hanno evidenziato come la memoria flash sia più abbondante nei dispositivi mobili rispetto alla RAM tradizionalmente utilizzata da ChatGPT e simili per far girare gli LLM.

Il metodo studiato da Apple aggira tale limitazione utilizzando il Windowing ed il Row-Column Bundling, che riducono al minimo il trasferimento di dati e massimizzano il throughput della memoria flash. Il windowing piuttosto che caricare ogni volta i nuovi dati, porta il modello d’IA a riutilizzarne alcuni, riducendo la necessità di recuperare costantemente la memoria e rendendo il processo più fluido e rapido. Il Row-Column Bundling consiste nella lettura di un documento in blocchi più grandi piuttosto che una parola alla volta: questo raggruppamento permette all’IA di leggere i dati più velocemente accelerando al contempo la capacitò dell’IA di comprendere e generare linguaggio.

In termini “reali”, la combinazione di questi due metodi si traduce in un aumento del 4-5x della velocità d’esecuzione su CPU e del 20-25x su GPU. Gli autori dello studio osservano come “questa svolta è particolarmente cruciale per l'implementazione di LLM avanzati in ambienti con risorse limitate, ampliandone così l'applicabilità e l'accessibilità”.