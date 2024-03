Inseguita per mesi dai rumor, finalmente la nuova architettura NVIDIA Blackwell è stata annunciata da Jensen Huang in persona e andrà a influenzare in maniera sensibile non solo il mercato dell'Intelligenza Artificiale, con i chip più potenti mai costruiti a tale scopo, ma anche quello videoludico, in virtù delle opzioni consumer (sia chiaro, profondamente diverse a livello strutturale) che ne deriveranno più in là nel corso dei mesi.



Tre prodotti per dominare il mercato

In occasione della GTC 2024, il CEO con la giacca in pelle ha svelato le ultime creazioni della sua casa, due GPU e un "superchip" che combina su singola piattaforma una CPU Grace con due GPU Blackwell.

I nomi da tenere a mente sono tre, rispettivamente B100, B200 e GB200, con questi ultimi due che rappresentano l'apice della piramide prestazionale della nuova generazione di chip a tinte verdi.

Blackwell rappresenta lo stato dell'arte per gli acceleratori di IA e spinge al limite le attuali tecnologie del chipmaker taiwanese TSMC per raggiungere la bellezza di 208 miliardi di transistor. La GPU B200, in particolare, sarà di fatto un acceleratore chiplet e vedrà l'affiancamento di due die per una singola GPU, uniti tramite collegamento chip-to-chip NV-HBI da 10TB/s.

Come suggerisce il noto tipster kopite7kimi, a tale numero di transistor si è arrivati grazie al nodo "custom" TSMC 4NP su cui è basata l'architettura Blackwell, che dovrebbe rappresentare solo un affinamento del nodo 4N a 5 nanometri già utilizzato su Ada Lovelace ma con un miglioramento del 30% in termini di densità.



L'efficientamento della nuova generazione, dunque, passerà principalmente da fattori architetturali e non dal cambio di nodo, le cui proprietà possono aver influito solo marginalmente rispetto a quanto già osservato con Hopper e Ada.

Proprio rispetto a Hopper e, in particolar modo, all'H100, il beneficio maggiore nel passaggio a una struttura a chiplet sta proprio nel sensibile cambio di passo tra i "vecchi" 80 miliardi di transistor e gli attuali 208, 104 per ogni die della B200.

Il sistema multi-chip consente di andare oltre anche sul fronte delle memorie: ogni die è collegato a quattro moduli da 24GB di memoria HBM3E, per un totale di 192GB su bus a 8192-bit.

NVIDIA non si è sbottonata più di tanto sui numeri, dando un quadro incompleto ma comunque non meno interessante dell'offerta della nuova generazione per datacenter/HPC. Le opzioni che arriveranno sul mercato avranno un TDP di 700W e 1000W (rispettivamente B100 e B200), tenuto conto che la H100 si fermava proprio a 700W.

Quanto alle prestazioni, le stime di NVIDIA suggeriscono che la nuova architettura sarà come minimo più potente del doppio di Hopper e alla porta ci sono già clienti del calibro di Meta, che attende i primi chip già entro la fine del 2024.

In generale, Blackwell può arrivare a 20 petaflop in FP4 e 10 petaflop in FP8. Tenuto conto che su Hopper non è possibile operare con precisione FP4, già in FP8 Blackwell offre più del doppio delle prestazioni.



Complice di questo miglioramento, oltre alla stessa architettura è anche la seconda generazione del Transformer Engine, che aggiunge il supporto a 4-bit aumentando la capacità computazionale e la dimensione dei modelli che possono essere gestiti.

Sarà molto interessante, in definitiva, vedere in che modo il mercato andrà ad accogliere la possibilità di operare a precisioni tanto basse.

Il cosiddetto superchip di NVIDIA sarà l'osservato speciale per via della possibilità di unire la potenza di due chip Blackwell su una sola scheda. A dir poco impressionanti le cifre del supporto memorie su piattaforma singola, dal momento che ai 480 GB supportati dalla CPU Grace si aggiungono i 384 GB HBM3E della doppia GPU, per un totale di 864 GB.

Proporzionali le prestazioni, con GB200 che offre fino a 40 petaflop in termini di prestazioni, benché il riferimento di NVIDIA sia sempre alla precisione FP4.

La parola d'ordine, però, resta efficienza: è proprio questa la chiave di lettura che NVIDIA vuole dare alle sue nuove GPU. Sempre la compagnia americana ha spiegato che i calcoli di addestramento di un modello da 1.800 miliardi di parametri, che un tempo avrebbero richiesto 8000 GPU Hopper, oggi potranno essere svolti da "appena" 2000 unità Blackwell, con un cospicuo risparmio anche sui consumi, che passerebbero da 15 a 4 megawatt.



Non meno importante è anche l'I/O. Oltre al supporto allo standard PCI Express 6.0 (anche in questo caso un passo in avanti rispetto a Hopper), la quinta generazione dell'interfaccia di comunicazione NVLink assicura un throughput bidirezionale fino a 1.8 TB/s con supporto fino a 576 GPU.

La forma finale dell'offerta sono i maxi-sistemi GB200 NVL72 da 36 CPU e 72 GPU, con capacità prestazionali fino a 720 PFLOP nel training FP8 e 1,44 exaFLOP nell'inferenza IA FP4, il tutto in un rack raffreddato a liquido.

All'interno del sistema, un ruolo cruciale sarà svolto dall'NVLink Switch Chip, controller basato anch'esso su nodo 4NP e da ben 50 miliardi di transistor che supporta fino a quattro collegamenti NVLink da 1,8 TB/s ciascuno.

Alla finestra ci sono già innumerevoli partner, tra cui Amazon, Google, Oracle e Microsoft, già pronti ad accogliere i nuovi pod nei loro datacenter IA.

A margine della conferenza di presentazione, sono tornati a scatenarsi anche rumor e parallelismi ipotetici tra le GPU Blackwell per l'IA e ciò che si nasconderà sotto la scocca delle schede video RTX Serie 50, la cui presentazione dovrebbe ormai essere a distanza di una manciata di mesi.



Benché sia ormai dato per certo che sarà proprio Blackwell l'architettura delle GPU commerciali di prossima generazione, ci saranno enormi differenze di natura puramente strutturale rispetto al prodotto pensato per il segmento HPC. Il nodo con buone probabilità sarà lo stesso, dunque sfumano sempre di più le possibilità di vedere all'opera nel 2024 e nel 2025 delle schede video basate su processi inferiori agli attuali 5 nanometri.

Quella della GTC 2024 resta una prova di forza unica nel suo genere, in attesa di scoprire quale sarà la strategia di NVIDIA per il segmento consumer, ma i più ottimisti avranno già iniziato a sognare un approccio multi-chip anche per le schede video da gaming. Sarà così? Nonostante le probabilità siano davvero poche, sognare è lecito.