Betekintés az NVIDIA Volta architektúra képességeibe

A vállalat csak a gépi tanulásra fókuszált az új lapkánál, ami érdekes dizájnt szült.

A motorháztető alatti titok

A GV100 az előző GP100-hoz képest nem sokat változott a memóriaalrendszer tekintetében. Megmaradt a méretes interposer, illetve még nagyobb lett, és ezen négy darab, egyenként 4 GB-os, azaz összesen 16 GB HBM2 memória kerül. Ebből kitalálható, hogy 4096 bites a memóriabusz, mivel a négy darab memóriatömb egyenként 1024 bites buszon keresztül kapcsolódik a GPU-hoz, illetve a lapka kapott még 6 MB L2 gyorsítótárat is.

Hirdetés

Az NVLINK szintén megmarad, méghozzá modernizált formában. Ez az összeköttetés a GV100-on belül továbbra is HUB által lesz vezérelve, de az interfész egy irányba a korábbi 20 GB/s-os helyett már 25 GB/s-ot tud. Emellett maga a lapka hat darab NVLINK interfészt kezel, így az összteljesítmény elérheti a 300 GB/s-ot, de ez nagyban függ a konfiguráció formájától, így általánosítani nem lehet.

A GV100-at a GP100-hoz hasonlóan kétféleképp lehet beépíteni a szerverekbe. Egyrészt használhatók olyan processzorok, amelyek minimum x16-os PCI Express 3.0-s vezérlővel rendelkeznek. Ilyenkor egy processzorra a megfelelő PCI Express átkapcsolóval akár két GV100 is köthető, de a szerverprocesszorok esetében azért jellemzően jóval több PCI Express 3.0-s csatorna is használható. Az NVIDIA a megfelelő NVLINK topológia miatt processzoronként maximum hat GV100 lapkát enged meg.

Igazán izgalmassá akkor válik a helyzet, ha IBM Power9 architektúrára épülő, NVLINK interfészt is támogató processzorok mellé kerül a GV100. Az új lapkában ugyanis van ATS (Address Translation Services) támogatás, ami lehetővé teszi a GV100-as GPU-nak, hogy közvetlenül elérhesse a CPU-k laptábláit. Ennek az eljárásnak az ismertebb, amolyan általános neve a general purpose memory paging (GPMP), és tulajdonképpen lehetővé teszi azt, hogy a hardver automatikusan kezelje a memória menedzsmentjét, így ezzel az amúgy igen bonyolult problémával a fejlesztőknek nem kell foglalkozniuk. Magasan ez a Volta architektúra legértékesebb fejlesztése, ami várható is volt, mert ennek a némileg limitált, lényegében csak a CUDA platformon működő verzióját a GP100 már tartalmazta, de a GV100-ban egy platformtól független megoldás van a problémára, így ez sokkal nagyobb szerephez juthat.

A tényleges termékre rátérve a Tesla V100 nem teljes értékű GV100-at használ, mivel a lehetséges 84 shader multiprocesszorból csak 80 lesz aktív. Ez persze nem nagy probléma, és elsődlegesen arra szolgál, hogy a gyártás során keletkező selejtes GPU-kat a hibás területek letiltásával el lehessen adni. Ez egy 815 mm²-es GPU-nál kritikus tényező, mivel elég sok lesz a selejt pusztán a lapka kiterjedése miatt is.

NVIDIA Tesla V100
NVIDIA Tesla V100 [+]

80 darab SMV-vel számolva a 300 wattos TDP fogyasztási osztályba sorolt Tesla V100-ban összesen 5120 darab CUDA mag lesz, de ahogy leírtuk, ez nem igazán mond semmit a lapkáról, így jobban strukturálva 5120 darab FP32-es, 5120 darab integer, 2560 darab FP64-es, valamint 40 960 darab tensor feldolgozó kapott helyett a rendszerben. A textúrázó csatornák száma összesen 336, míg a teljes memóriabusz 4096 bites. Az NVIDIA turbó órajelnek 1455 MHz-et tervez, ezzel számolva jön ki a 7,5 TFLOPS-os, 15 TFLOPS-os, 30 TFLOPS-os és 120 Tensor TFLOPS-os elméleti teljesítményadat a 64 bites, 32 bites és 16 bites lebegőpontos számítások, illetve az új Tensor magok mellett. Az NVIDIA megadta a memória effektív órajelét is, amely 1,75 GHz lesz, így a memória-sávszélesség 900 GB/s, mindemellett az ECC is támogatott.

Abu85

Azóta történt

Előzmények