Sugárkövetésre gyúrja ki az új GPU-ját az NVIDIA

Hagyományos feladatokban alig lesz gyorsabb a Voltánál a Turing architektúra, de nem is ez volt a fejlesztés célja.

Az NVIDIA az idei SIGGRAPH-on leleplezte a Turing architektúrát, amely egy ismeretlen kódnevű GPU-n teszi először tiszteletét. Korábban a Turing nevet már elejtette a Reuters, ami gyorsan pontot is tett az akkoriban Ampere névre asszociáló pletykákra, de ennél többet azóta se lehetett megtudni a fejlesztésről.

Mára viszont sok információ kiderült, és a GV100-at leváltó Turing GPU meglehetősen érdekes megoldás lett. Első látásra a Turing architektúra egy igen specifikus dizájn, kifejezetten egy célterületre, ezen belül is a sugárkövetésre összpontosít, és a változások jelentős része ennek lett alárendelve. Fizikai értelemben egy GV100-hoz hasonló méretű lapkáról beszélünk. A konkrét kiterjedés 754 mm², míg a tranzisztorszám 18,6 milliárd. A gyártástechnológiát az NVIDIA most nem említette, de az előbbi két adatból kiindulva gyakorlatilag biztos, hogy a TSMC, 12 nm-es FFN node-ján készül az újdonság.

Az új, Turing GPU egyik furcsasága, hogy az előző generációhoz képest csökken az általános feldolgozók száma. Amíg a GV100-ban 5376 CUDA és 672 Tensor mag dolgozik, addig az új fejlesztésben már rendre csak 4608 és 576. Bár hivatalosan nincs megerősítve, de a SIGGRAPH-on volt rá utalás, hogy a blending egységek száma is 128-ről 96-ra módosul, ugyanis szükség volt a felszabaduló helyre az új hardverelemek beépítéséhez. Emellett lényeges megemlíteni azt is, hogy a 4096 bites memóriabusz helyére visszatér a 384 bites, vagyis a Turing GPU már nem HBM2, hanem 14 GHz-es effektív órajelen üzemelők GDDR6 szabványú memóriákat használ. Ez azt jelenti, hogy a memória-sávszélesség is csökken, méghozzá 850 GB/s-ról 672 GB/s-ra. Utóbbi a sugárkövetés szempontjából pont nem számít kedvező változásnak, de problémát jelentett, hogy az NVIDIA a HBM2-vel 32 GB-on ragadna a fedélzeti tár kapacitása szempontjából, miközben a vállalat x86/AMD64-es host processzor mellett nem támogat lapalapú memóriamenedzsmentet, így muszáj a kapacitás kérdését erővel megoldani, vagyis szükség volt a 48 GB-nyi VRAM-ra. Emiatt szükségszerű volt beáldozni a memória-sávszélességet.


[+]

Az NVIDIA a Turing GPU belső felépítéséről nagyon részletesen nem beszélt, de ennek utánakérdeztünk, így megtudtuk, hogy marad a hat darab GPC-re osztott dizájn, egy GPC-n belül pedig 12 darab shader multiprocesszor lesz. A multiprocesszorok felépítése nagyrészt hasonló a Volta architektúrához, így az utasításszavak végrehajtása a Turing architektúrában is a nekik megfelelő futószalagon történik. FP32 esetében egy darab 16 utas, integer mellett egy darab szintén 16 utas, míg a Tensor műveleteknél egy darab 128 utas tömb áll rendelkezésre. Utóbbi esetben fontos kiemelni, hogy ezek strukturálva vannak, vagyis egy 128 utas tömb gyakorlatilag két darab úgynevezett tensor magot jelent, amelyek 64-64 darab ALU-t használnak. Az L1 gyorsítótár marad egységesített, amelynek az előnyeit az alábbi hírben fejtettük ki, illetve a 6 MB-os L2 gyorsítótár sem változott. A Volta architektúrához viszonyítva a Turing újítása, hogy az FP32-es és az integer ALU-k mostantól konkurensen is üzemelhetnek. Persze a regiszterek szempontjából így is ugyanazt a területet használják, de ha a program erre megfelelően fel van készítve, akkor elméletben is működhet mindkét feldolgozótömb, emellett a tensor magok mostantól támogatják a 4 bites integer operációkat is, amellyel a teljesítményük jelentősen, 500 TOPS környékére növelhető.

Az új GPU támogatja még az NVLINK-et, a VirtualLinket, illetve a beépített multimédiás blokk is megújul, amely immáron 8K-s HEVC kódolást is kínál. A konkrét VGA-kon négy darab DisplayPort 1.4 és egy darab, VirtaulLinkhez való USB Type-C lesz található.

A GV100 úgy tudjuk, hogy megmarad a Turing GPU mellett, ugyanis utóbbinál gyorsabb, ha nyersen raszterizációra vonatkozó munkáról van szó, illetve úgy hírlik, hogy a Turing a dupla pontosság szempontjából sem tekinthető túl erős hardvernek, de itt a GV100 pont elég jó. Emiatt sem hasonlította az új fejlesztését az NVIDIA az aktuális csúcsmodellhez. A Turing elsődlegesen sugárkövetéshez készült, amely feladatot egy speciális, úgynevezett RT mag segít. Ez bizonyos feladatokat hardveresen gyorsít, a maximális teljesítménye pedig 10 Gigarays/s. Az említett hardverelem egyébként nem teljesen egybefüggő, hanem a jelentős része a shader multiprocesszorokat tömbösítő TPC-ken belül található meg. Ilyen formában skálázható az egész, de nehézséget jelent majd, hogy egy bizonyos szint alá nem éri meg menni. Egyszerűen a sugárkövetés annyira megterhelő folyamat, hogy 5 Gigarays/s alatt ez a hardver jórészt hasztalan. Működni fog persze, csak egy átlagos komplexitású jelenetben már nem lesz meg benne a valós idejű végrehajtáshoz szükséges teljesítmény. Ez mondjuk egy 754 mm²-es GPU-nál nem egy eget rengető probléma, de egy 300 mm²-esnél már az, hiszen ilyen méretben az RT mag csak tranzisztorokat foglalna, ráadásul eléggé sokat. Talán emiatt is lehetett hallani a SIGGRAPH-on, hogy 12/16 nm-es node-on nem a teljes termékskála lesz Turing, csak a nagyobb kiterjedésű modellek, míg a kisebb GPU-k maradnak a korábbi architektúrákon. Utóbbi reális lehet, hiszen már a Volta és a Turing csúcsmodelljének összehasonlításánál is látszik, hogy hagyományos feldolgozóban viszonylag sokat áldoz az új dizájn az RT magért cserébe.

A működésről nem kaptunk semmilyen támpontot, mivel az RTX nevű szoftveres háttér sajnos nagyon nincs kész, így az NVIDIA egy professzionális demonstrációt sem mutatott erről. Ugyanakkor a Turing annyira sokban épít a sugárkövetésre, hogy a hagyományos feladatokhoz való hardverelemek számát is beáldozza, így a vállalat minden bizonnyal nagyon dolgozik a háttérben a professzionális piacra dolgozó fejlesztők meggyőzésén. Erre van még idő, hiszen az új Turing GPU-t használó Quadro sorozatú, professzionális VGA-k majd csak az év vége felé érkeznek. A Quadro RTX 8000 és 6000 tekinthető majd csúcsmodelleknek. Ezek között a különbség jórészt kimerül abban, hogy előbbire 48, míg utóbbira 24 GB-nyi fedélzeti tár kerül. Ezt leszámítva a feldolgozók száma megegyezik, és a szimpla pontosság melletti számítási teljesítmény 16 GFLOPS körüli lesz, ahogy az RT mag is 10 Gigarays/s-ot biztosít. Ez így összességében furcsának tűnhet, főleg a rendre 10000 és 6300 dollár körüli árat látva, de ahogy fentebb említettük, a sugárkövetésnél, a komplexebb modellek esetében nagyon számít a memória mennyisége, tehát ennyi különbség már bőven elég ezen a területen. Érkezik egy olcsóbb, Quadro RTX 5000 jelölésű verzió is, amely a 2300 dollár körüli árával már jóval kevesebbet kínál a maga 3072 CUDA és 384 Tensor magjával, illetve a memóriabusz is 256 bitesre csökken, ami magával hozza a blending egységek számának redukálását. A VRAM mennyisége ebben az esetben 16 GB, illetve az RT mag tempója 6 Gigarays/s-ra esik vissza, ami egyébként még pont egy egészséges szint.

A három új Quadro RTX között leginkább aszerint érdemes dönteni, hogy milyen komplexitású modelleket fog a rendszer leképezni, és elsődlegesen ezt a VRAM kapacitása határolhatja be.

Azóta történt

Előzmények

Hirdetés