A Grace és Hopper párosításra tesz fel mindent az NVIDIA

A vállalat szerint ezekre építve nagyon hatékony rendszert lehet tervezni a gépi tanuláshoz.

Az NVIDIA az előző évben jelentette be, hogy platformot terveznek, idén pedig láthatóvá vált, hogy ezen mit is kell konkrétan érteni. Nyilván az nem meglepetés, hogy egy CPU-ról és egy GPU-ról van szó, de a specifikációra vonatkozó adatok már nem voltak egyértelműek.

A processzor tekintetében a Grace kódnevű fejlesztésről van szó, amely ARMv9 architektúrára épülő magokat használ. Egy lapkában 72 darab ilyen mag található, 198 MB-nyi – egyelőre ismeretlen formában elosztott – gyorsítótár mellett. Az ECC-t is támogató, tokozás mellé integrált rendszermemória az LPDDR5X szabványt használja, a memóriavezérlő pedig 500 GB/s-nál is nagyobb memória-sávszélességgel éri majd el. Alapvető részelem lesz az NVLINK, ennek is a negyedik generációs változata, mely a CPU-k közötti memóriakoherens összeköttetést 600, míg a CPU és GPU közöttit 900 GB/s-nál nagyobb tempóval oldja meg.

Hirdetés

Az NVLINK azért fontos tényező, mert két Grace processzor össze is köthető általa az előző bekezdésben említett teljesítmény mellett. Ez nem különbözik attól, ahogy manapság felépülnek a kétutas szerverek, a memóriakoherencia tehát itt is adott, és nyilván a paraméterek megduplázódnak, tehát 144 maggal lehet majd számolni. Az NVIDIA ezt a kombinációt Grace Superchipnek hívja, a fogyasztása pedig nagyjából 500 watt lesz. Ebből sejthető, hogy egy Grace lapka ennek nagyjából a felével érheti be.

NVIDIA GraceNVIDIA Grace és HopperNVIDIA Hopper NVIDIA Grace, Grace és Hopper, Hopper [+]

A platform másik része a H100-as kódnevű GPU, amely a Hopper architektúrára épül. Ez a dizájn még az Ampere-nél is jobban erősít a gépi tanulás irányába, de a vállalat pontosan nem részletezte, hogy a 80 milliárd tranzisztorból álló, TSMC 4 nm-es node-ján készülő lapkán belül mi található. Sajnos ennek hiányában fontos részletek nem ismertek, így a megadott számítási teljesítményekről sem lehet tudni, hogy miképpen jönnek ki. Ez azért fontos, mert így nem ismert, hogy az egyes lebegőpontos formátumok megfelelnek-e az IEEE 754-2008-as szabványnak, illetve az sem, hogy a structural sparsity támogatott-e, és ha igen, akkor figyelembe vették-e az elméleti tempó kalkulálásánál.


[+]

Az NVIDIA által megosztott adatok alapján ugyanakkor FP8, FP16 és TF32 formátumok esetben rendre 4000, 2000 és 1000 TFLOPS-ra képes a H100, míg a hagyományos FP32 és FP64 mellett 60 TFLOPS érhető el. Ehhez többet a konkrét felépítés ismeret nélkül nem lehet hozzáfűzni, mivel rengeteg fontos információ hiányzik.

A fedélzeti tár esetében már sokkal bőbeszédűbb volt a cég, így adott a HBM3 szabványú memória alkalmazása, méghozzá 6144 bites memóriabusszal. A 80 GB-os kapacitás alapján ugyanakkor feltételezzük, hogy nem mindegyik 1024 bites csatorna lesz bekapcsolva, vagyis inkább 5120 bites buszról lehet szó a gyakorlatban. A memória-sávszélesség persze így is 3 TB/s lesz.

A 700 wattot fogyasztó H100 technikai képességeit figyelembe véve újítás a PCI Express 5.0-s vezérlő, a negyedik generációs NVLINK, a Confidential Computingot támogató képességek, a GPU korábbinál biztonságosabb particionálása, illetve a DPX utasítások bevezetése. Ezek közül az utóbbi számít a legérdekesebbnek, mivel jelentősen képes gyorsítani a dinamikus programozást, ami pedig számos feladatban hasznos a szerverpiac tekintetében.

A fentiek után talán nem meglepő, ha azt írjuk, hogy a Grace és a Hopper egymás mellé készült, és a skálázhatóság tekintetében az egy Grace és egy Hopper párosítástól egészen a két Grace és nyolc Hopper kombinációig is el lehet menni. Ráadásul CX-7 smartNIC által hálózaton keresztül direkten is összeköthetők a GPU-k, és hogy ennél is több lehetőség legyen, az NVIDIA bejelentette az NVLINK általános alkalmazását az összes készülő lapkáján, illetve azt is, hogy mostantól külső chiptervező is implementálhatja a szabványt.

Készül az új DGX is, amely a DGX H100 nevet viseli. Ebben nyolc darab H100-as GPU köthető össze az NVSwitch által, és ez a konfiguráció felbővíthető DGX POD-dá, amely NVLINK Switchekkel kapcsol össze maximum 32 darab DGX H100-at. Mindez ráadásul még tovább skálázható a Quantum-2 InfiniBand architektúra által, amikor maguk a DGX POD-ok kapcsolhatók össze. Az NVIDIA tervez is egy ilyen rendszert magának 18 darab DGX POD-dal, és ezt EOS-nek fogják nevezni.

NVIDIA EOS
NVIDIA EOS [+]

A vállalat szerint a Grace kódnevű processzormag a következő évben érkezik, de a H100-as GPU már idén befut, a főbb partnerek várhatóan a harmadik negyedévben kaphatják majd meg.

Az NVIDIA bejelentette még az OVX szervert is, ami a DGX-hez hasonló koncepciót valósít meg, ám gépi tanulás helyett az Omniverse platform futtatására koncentrál. Emiatt nem is kap H100-as GPU-t, hanem a már korábban bemutatott A40-et használja, ebből is nyolc darabot, a host CPU-k tekintetében pedig két Intel Xeon Platinum 8362 teljesít szolgálatot. Ebből is építhető POD verzió, így több OVX szervert is össze lehet kapcsolni.

Azóta történt

Előzmények

Hirdetés