Mindent visz: A GeForce RTX 5080 tesztje

Az NVIDIA Blackwell sorozatának felső kategóriáját egy ASUS TUF szériás VGA segítségével próbáltuk ki.

Hirdetés

Blackwell, még több AI-jal

Hosszas várakozás és sok pletyka után január elején, a CES-en mutatta be az NVIDIA a GeForce RTX sorozat legfrissebb, 5000-es sorozatát, mely a Blackwell nevű architektúrát használó GPU-kra épül. Először a „halo” változat, az 5090 került a partnerekhez, mely 2000 dolláros ajánlott végfelhasználói árával sokak vágya, de kevesek kiváltsága lehet. A megfizethetőbb (bár minden viszonylagos) szegmensben, 1000 dolláros szint körül mozognak majd azonban GeForce RTX 5080-at használó kártyák, melyet már többen engedhetnek meg magunknak. Ezek közül a „sima” modellek tegnap óta, a tuningolt, egyedi körítéssel ellátott drágább változatok pedig mától elérhetőek. Tesztalanyunk is az utóbbiak közé tartozik: ez az ASUS TUF Gaming szériájába tartozó, a hivatalos órajelekhez képest 83 MHz-cel magasabb Boost frekvencián üzemelő GPU-val dolgozó változat, igen komoly hűtéssel.


[+]

Versenytársak
VGA megnevezése NVIDIA GeForce
RTX 5090
ASUS TUF Gaming
GeForce RTX 5080 OC
NVIDIA GeForce
RTX 4090
NVIDIA GeForce
RTX 4080 Super
AMD Radeon
RX 7900 XTX
Kódnév GB202-300 GB203-400 AD102-300 AD103-400 Navi 31 XTX
Gyártástechnológia 5 nm (TSMC 4N) 5 nm (TSMC N5/N6)
Mikroarchitektúra Blackwell Ada Lovelace RDNA3
Tranzisztorok száma 92,2 milliárd 45,6 milliárd 76,3 milliárd 45,9 milliárd 58 milliárd
GPU-lapka mérete 750 mm2 378 mm2 608 mm2 379 mm2 300 (GCD)+220 (MCD) mm2
GPU alap/turbó órajel 2017/2407 MHz 2295/2700 MHz 2235/2520 MHz 2295/2550 MHz 2300/2500 MHz
GPU/shader órajele
üresjáratban
172 MHz 210 MHz dinamikusan változó
Shader processzorok
típusa
stream stream (16+16 co-issue) multiprecíziós vektor
Számolóegységek száma 21760 10752 16384 10240 6144
Textúrázók száma 680 textúracímző
és -szűrő
336 textúracímző
és -szűrő
512 textúracímző
és -szűrő
304 textúracímző
és -szűrő
382 textúracímző
és -szűrő
ROP egységek száma 24 blokk (192) 16 blokk (128) 22 blokk (176) 14 blokk (112) 24 blokk (192)
Memória mérete 32 768 MB 16 384 MB 24 576 MB 16 384 MB 24 576 MB
Memóriavezérlő 512 bites crossbar 256 bites crossbar 384 bites crossbar 256 bites crossbar 384 bites hubvezérelt
Memória órajele terhelve 28 000 MHz (GDDR7) 30 000 MHz (GDDR7) 21 000 MHz (GDDR6X) 23 000 MHz (GDDR6X) 20 000 MHz (GDDR6)
Üresjáratban 51 MHz (GDDR7) 51 MHz (GDDR6X) dinamikusan változó
(GDDR6)
Max. memória-
sávszélesség
1 792 000 MB/s 960 000 MB/s 1 008 000 MB/s 736 000 MB/s 960 000 MB/s
Dedikált
HD transzkódoló
4x NVENC9 2x NVENC9 2x NVENC8 2x RME
Hardveres videó-
lejátszás támogatása
4x NVDEC6 2x NVDEC6 2x NVDEC5
Hivatalos fogyasztás ~575 watt ~360+ watt ~450 watt ~320 watt ~355 watt

Az alapokat tekintve az NVIDIA az Ada Lovelace helyére a Blackwell architektúrát dobta be, amely az említett VGA esetében az GB203-as kódnevet viselő lapkában dolgozik. A fejlesztés a TSMC 4N jelzésű 5 nm-es node-ján készül, és 45,6 milliárd tranzisztorból épül fel, miközben a kiterjedése 378 mm².

A Blackwell architektúra multiprocesszora
A Blackwell architektúra multiprocesszora [+]

A Blackwell architektúra elsődlegesen az Ada Lovelace továbbfejlesztésének tekinthető. A streaming multiprocesszorok általános felépítése alig változott, a fő újítások az AI-t feladatok tekintetében érhetők tetten.

A Blackwell multiprocesszorokon belül maradt a jól megszokott, négy compute blokk. Ezekben található egy L0 utasítás gyorsítótár, egy feladatirányító (dispatch), illetve egy warp ütemező, amelyek többféle futószalagot etetnek. A dizájn alapjai az Ada Lovelace-hez képest annyiban változtak, hogy már nem két 16 utas, hanem egy 32 utas tömb áll rendelkezésre, amely kezeli a 32 bites lebegőpontos, vagyis FP32-es, illetve a 32 bites integer, azaz INT32 feladatokat. Ezzel megszűnt a korábbi, FP32-es operációkra szabott co-issue feldolgozási modell, elvégre már egyetlen egy tömb tartalmaz kétszer annyi feldolgozót. Mindez nagyon érdekes döntés az NVIDIA részéről, ugyanis gyakorlatilag a fő feldolgozótömb kétszer szélesebb lett, miközben az ütemezés és a regisztertár mérete nem lett hozzáigazítva ehhez a változáshoz. Ez önmagában még nem jelent problémát, de a szélesebb tömb ott okozhat általában nehézséget az efféle, erőteljes a szálszintű párhuzamosságra rágyúró rendszerek esetében, hogy van-e annyi feldolgozandó munkaelem, amelyek ráküldhetők a relatíve széles egységre, méghozzá úgy, hogy kellő mennyiségű szál van azonos szemcsézettségű csoportokba rendezve. Emiatt nem szokás úgy változtatni a feldolgozótömb szélességén, hogy közben ennek az ütemezéssel és a regisztertár kapacitásával nem mennek utána, de az NVIDIA úgy gondolhatta, hogy ennyi kompromisszum még belefér, mivel tranzisztort lehet spórolni a szélesebb tömbökkel. Valószínű ugyanakkor, hogy a Blackwell dizájn esetében, a komplexebb shadereknél, az előző generációhoz viszonyítva többször előfordul majd az a helyzet, hogy nem lesz elég konkurens warp ahhoz, hogy a memóriaelérés késleltetése átlapolható legyen.

Blackwell multiprocesszor változása vizuálisan, az előző generációhoz viszonyítva
Blackwell multiprocesszor változása vizuálisan, az előző generációhoz viszonyítva [+]

A fentieken túl mindegyik compute blokknak része a Tensor műveletekért felelős, egy darab 512 utas, structural sparsity támogatással dolgozó tömb, amely immáron egy ötödik generációs fejlesztés, és újításként bevezeti még az FP6-os és FP4-es formátumok támogatását is.

Az NVIDIA továbbra is az FP32-es ALU-kat tartja CUDA magoknak, és ezek a részegységek megfelelnek az IEEE754-2008-as szabványnak, vagyis támogatják a MAD (Multiply-Add), illetve az FMA (Fused Multiply-Add) instrukciókat. Az FP16-os műveleteket az alapértelmezett feldolgozótömb kezeli, méghozzá úgy, hogy egy FP32-es feldolgozó két darab, egymástól nem függő 16 bites lebegőpontos operációt hajthat végre.

A load/store egységek bekötése másolja az Ada Lovelace, az Ampere és a Turing dizájnját, ahogy a trigonometrikus és transzcendens utasítások végrehajtásáért felelős speciális funkciókat biztosító egység (SFU) kialakítása is. A textúrázási képességek területén viszont van némi újítás. Ugyan az egyes streaming multiprocesszorok továbbra is egy darab, négy csatornát biztosító textúrázó blokkot tartalmaznak, amelyet négy compute blokk használ egyszerre, de a szűretlen minták tekintetében a Blackwell, a korábbi dizájnoknál kétszer több mintával tér vissza órajelenként.

A compute blokkokon belüli regiszterterület marad 64 kB, vagyis annyi, amennyi az előző generációkban volt, továbbá a 128 kB-os L1 gyorsítótár tekintetében sincs előrelépés. Ez az egység ezúttal is számos konfigurációban fogható be. Amennyiben az adott compute blokk grafikai feladatot futtat, akkor kötelező 64 kB-ot biztosítani a textúrázóegységeknek, miközben 48 kB lesz a helyi adatmegosztás, illetve 16 kB fenntartása szükséges a grafikai futószalagokhoz. Compute feladatok mellett már sokkal szabadabb a felhasználás, az általános gyorsítótár 28, 64, 96, 112, 120 vagy 128 kB lehet, és ha marad nem lefoglalt terület, akkor az befogható helyi adatmegosztásra.

Az NVIDIA az elmúlt generációk során hivatalosan nem szokta jegyezni, de most is igaz, hogy minden egyes multiprocesszor tartalmaz két darab 64 bites lebegőpontos, azaz FP64-es ALU-t. Ezek fizikailag úgy vannak beépítve, hogy két compute blokkhoz kapcsolódik egy feldolgozó, amely a működése során a társított blokkok regiszterterületét és gyorsítótárait használhatja. A kevés részegység miatt tehát most is igencsak kis teljesítményről van szó, és alapvetően a Blackwell dizájnja nem arra lett kitalálva, hogy dupla pontosságot igénylő programokat futtasson hatékonyan, de funkcionálisan most is adott a lehetőség.

Kiemelendő még az AMP, vagyis az AI Management Processor. Ez ugyanakkor nem teljesen az AI-ról szól, csak manapság, ami egy picit is kapcsolódik hozzá, azt el lehet adni ezzel a két betűvel, függetlenül attól, hogy amúgy többről beszélhetünk itt. Az AMP igazából a GPU parancsprocesszorában található RISC-V magot használja fel a GPU kontextusok gyorsabb ütemezésére, mivel csökken a CPU és a GPU között szükséges kommunikáció mennyisége azáltal, hogy a GPU menedzselheti a saját parancslistáját.

A cikk még nem ért véget, kérlek, lapozz!

Hirdetés

SENIOR PHP programozót keresünk

PR Üzleti logikához és ERP rendszerhez igazított egyedi e-kereskedelmi megoldások, webáruházak fejlesztéséhez SENIOR PHP programozót keresünk

Azóta történt

Előzmények

Hirdetés