NVIDIA GP100: cosa si nasconde dentro la GPU più potente di NVIDIA?

NVIDIA ha svelato il die di GP100, la GPU con architettura Pascal più veloce a disposizione dell'azienda di Santa Clara.

NVIDIA GP100: cosa si nasconde dentro la GPU più potente di NVIDIA?
Articolo a cura di

NVIDIA ha da poco mostrato molti dettagli in più sul suo chip Pascal più potente, la GPU GP100. Svelato alla GPU Technology Conference 2016, esso rappresenta attualmente il processore grafico più veloce della casa di Santa Clara, che viene per questo impiegato nella Tesla P100, un hyperscale accelerator nato per portare il massimo della velocità nell'ambito aziendale. GP100, come sappiamo, non è disponibile per il mercato mainstream e, specificatamente, per i videogiocatori, che dovranno "accontentarsi" di GP102. Allo stato attuale l'unico esponente dotato di quest'ultima GPU è la Titan X, ma a breve potrebbe anche equipaggiare la GTX 1080 Ti, che dovrebbe essere sostanzialmente una versione più economica della sorella maggiore. GP102 arriva con le memorie GDDR5X, mentre GP100 ha le HBM2, memorie di generazione recentissima che probabilmente vedremo a disposizione dei gamer il prossimo anno. Di fianco alle nuove VRAM abbiamo poi NVLink, un'interfaccia proprietaria di NVIDIA dedicata all'ambito delle alte prestazioni, che mira a incrementare notabilmente le velocità di interconnessione ed il bandwidth.

Le fattezze di GP100

GP100 possiamo considerarlo come il padre di tutte le schede grafiche con architettura Pascal, che però - come abbiamo anticipato - è dedicato solo al mercato dell'high performance computing (HPC). NVIDIA sta utilizzando il chip attualmente in esclusiva con la Tesla P100, sin dal mese di giugno. Probabilmente il processore grafico mai diventerà disponibile per il mercato consumer, in quanto possiede un design e delle caratteristiche tali da essere apprezzati esclusivamente nell'HPC.
Prima di addentrarci nell'analisi del chip vogliamo ricordare che il design di GP100 è piuttosto coeso e denso di unità di calcolo per cui, all'atto pratico, non risulta poi così grosso se rapporto alla potenza computazionale che è in grado di scatenare. Il die ospita un totale di 15,3 miliardi di transistor, con l'interfaccia NVLInk che è situata sulla destra, mentre il bus da ben 1024 bit attraversa la GPU dall'alto verso il basso. Complessivamente, il chip misura 610 millimetri quadrati, senza includere però la memoria HBM2 che è molto vicina alla GPU.

Ovviamente sul die abbiamo i controller di memoria appositi, che supportano la VRAM di nuova generazione, assieme a 4 MB di cache di secondo livello e 30 (in configurazione 28+2) Streaming Multiprocessor. Da segnalare, inoltre, che a bordo scorgiamo anche un'interfaccia PCI 3.0 x16: questo perché i nodi NVLink disponibili sono solo quattro, e solo altrettante GPU possono essere collegate al chip. Poiché in campo professionale abbiamo spesso più di 4 schede in parallelo, quelle extra vengono servite dal collegamento PCIe, che però risulta chiaramente più lento, seppur la configurazione ibrida sia un ottimo compromesso.

Alcuni dettagli tecnici

Come i processori grafici che hanno accompagnato le schede Tesla di generazione precedente, anche GP100 è composto da una struttura definita da un array di Graphics Processing Clusters (GPC), Streaming Multiprocessors (SM) e di controller di memoria. Il chip raggiunge l'ambizioso obiettivo di mettere assieme ben sei GPC con fino a 60 SM. Questi sono accompagnati dai controller di memoria, che nello specifico sono otto da 512-bit (4096-bit in totale, quindi).
L'architettura Pascal ha una dote che però va oltre la bruta potenza computazionale: essa migliora le prestazioni finali non solo aggiungendo Streaming Multiprocessor, ma rendendoli anche più efficienti. Ogni SM ha ben 64 CUDA core e quattro texture unit, per avere complessivamente a disposizione 3840 CUDA core e 240 TMU. Gli SM, infine, sono stati arrangiati in 32 TPC, ognuno comprendente due Streaming Multiprocessor.
Nel settore dell'HPC è importantissimo lavorare con dati ad alta precisione, altrimenti sarebbe impossibile portare a termine certi compiti legati al technical computing. Non potevano per questo mancare le unità dedite al calcolo FP64, le quali sono 32 per ogni SM. Una singola unità FP64 fornisce una ratio di 2 a 1 per quanto riguarda il throughput single-to double precision, e questo è un ottimo passo in avanti rispetto ai 3 a 1 delle GPU Kepler, segno tra l'altro di una più efficiente gestione dei workload FP64.

NVIDIA La potenza a disposizione di GP100 è davvero enorme ed impensabile fino a poco tempo fa. I 12 TFLOPS FP32 e i 5,5 TFLOPS FP64 sono una preoccupazione per tutti i competitor impegnati nel settore HPC, come IBM. Questo senza dimenticare la presenza a bordo delle memorie HBM2, che può arrivare sino ad una impressionante capacità di 32 GB con un bandwidth che, attualmente, è pari a 720 GB/s su Tesla P100. Sappiamo comunque che tutto il potenziale delle nuove memorie non è ancora stato sbloccato, in quanto la banda può teoricamente arriva ad 1 TB/s, e forse anche superarlo.