Így muzsikál Ada: teszten a GeForce RTX 4080

Az NVIDIA új generációs GPU-ját az ASUS tuningolt ROG Strix kártyájával próbáltuk ki.

A multiprocesszorokon kívül

Az Ada Lovelace architektúra strukturális felépítése a setup területén is ismerős lehet, mivel az NVIDIA továbbra is egy raszteres és egy úgynevezett PolyMorph részre vágja a hagyományos értelemben vett setup motort. Az előbbi egységből hét található az AD103-ban, és egy raszter motor maximum hat darab Texture Processor Cluster (TPC) ellátásáról gondoskodik. Ezt a felállást a vállalat – szokás szerint – Graphics Processing Clusternek (GPC) nevezi. A raszter motor órajelenként 16 pixelt képes feldolgozni, ami az AD103 esetében a teljes lapkára nézve 112 pixelt jelent, amely adat egyensúlyban van a 112 blending egységgel is, azaz a friss fejlesztés ezen a ponton kiegyensúlyozott.

NVIDIA AD103
NVIDIA AD103 [+]

A TPC-kben található PolyMorph motor a geometriával kapcsolatos munkálatokat végzi, és ennek a korábbi rendszerekhez képest szintén nem változott a működése. Mivel az AD103-ban 40 TPC található, ez értelemszerűen ugyanennyi PolyMorph motort eredményez. Éles szemű olvasóink észrevehetik, hogy az előző bekezdés alapján valami nem stimmel. Elvégre ha hét darab GPC van a lapkában, és GPC-nként hat TPC-vel lehet számolni, akkor 42 TPC-nek kellene lennie. Azért nincs ennyi, mert a hétből két GPC-ben fizikailag is csak öt TPC van, ami egy hardveres korlát, így lett a rendszer tervezve.

A ROP-blokkok szempontjából marad az Ampere-ből ismert felépítés, vagyis egy GPC-ben maximum két ROP-blokk lehet, és egy ilyenben továbbra is 8 blending és 32 Z mintavételező egység található.

A multiprocesszorokon kívüli rész eddig nem tűnik túl izgalmasnak, hiszen gyakorlatilag nem látni újítást, de van egy pont, ahol az NVIDIA nagyot lépett előre, az pedig az L2 gyorsítótár kapacitása. Az AD103-as GPU 65 536 kB-os, azaz 64 MB-os megosztott L2 gyorsítótárat kapott, és ehhez kapcsolódik a GDDR6X-os szabványú memóriákat támogató memóriavezérlő, ami 32 bites csatornákra szétosztott, 256 bites buszt eredményez.

Rögtön felmerülhet a kérdés, hogy miért ugrott az NVIDIA ilyen jelentőset az L2 gyorsítótár terén, amire valószínűleg sokan rávágják, hogy az AMD-féle Infinity Cache-re akarhattak reagálni, de ez ennél azért bonyolultabb. Az RDNA 2-ben az Infinity Cache egy victim cache, aminek a feladata kizárólag az volt, hogy a grafikus vezérlő mozaikalapú leképezési modelljét segítse abban, hogy ne kelljen egy csomó esetben elmenni az adatért a videomemóriáig. Emiatt a specifikus működése miatt az Infinity Cache alapértelmezetten nem is része az alapvető cache-rendszernek. Tehát amikor egy RDNA 2-es GPU beolvas egy adatot a videomemóriából, akkor az először az L2 gyorsítótárba kerül, majd onnan az L1-be. Az Infinity Cache pusztán egyfajta mentőcsónakként funkcionál, ami konkrétan kimenti azokat az L2 cache-ből kidobandó gyorsítótársorokat, amelyek a mozaikalapú leképezéssel kapcsolatos feladatok számára hasznosak lehetnek. Nyilván itt fel lehet hozni, hogy ezt sem feltétlenül teszi nagy hatékonysággal, és természetesen aránylag sokszor megmenthet olyan adatokat, amelyek hasztalanok a cél szempontjából, de az elvi alapokat tekintve a működési háttér egy problémakör megoldására fókuszál.

Az NVIDIA a hatalmas L2 gyorsítótárral sokkal általánosabban gondolkodik, tehát nem egy célirányos fejlesztésről van szó, mint amilyen az Infinity Cache, hanem igazából az a lényeg, hogy minden munkafolyamatra legyen pozitív hatása. Minden bizonnyal klasszikus vagy némileg modernebb grafikai számításokban kevés haszna lesz, de bizonyos esetekben azért számottevő előnyt biztosíthat. Ilyen lehet például a Tensor feldolgozók kiszolgálása, illetve a sugárkövetéshez használt komplexebb gyorsítóstruktúrák kezelése.

Megemlítendő, hogy az Ada Lovelace új OFA, azaz Optical Flow Accelerator egységet vezet be, amelyhez hasonló ugyan található az Ampere architektúrájú GPU-kban is, de a friss fejlesztés jóval potensebb, mivel 126 helyett 305 TOPS-os teljesítményre képes. Erre a rendszerre alapoz a DLSS 3 képkocka-generálása is. Nem elhanyagolható az sem, hogy lapka rendelkezik még két DMA motorral, illetve x16-os PCI Express 4.0-s vezérlővel.

A cikk még nem ért véget, kérlek, lapozz!

Azóta történt

Előzmények

Hirdetés