Bevezető, versenytársak
Menetrendszerűen, a fő versenytárs lépése után pár hónappal megérkezett az AMD grafikus kártyáinak legújabb generációja is. A Radeon RX 7xxx-es sorozat első két tagja az RX 7900 XTX és az RX 7900 XT, melyek egy-egy referenciakártya képében tették tiszteletüket nálunk. Ahogy azt az utóbbi időben megszokhattuk, az AMD nem a nyers erővel, hanem inkább a mindennél jobb ár/teljesítmény aránnyal szeretné meghódítani a vásárlók szívét, és ezt nemcsak a marketinganyagban kapott, ennek az aránynak a kedvező voltát bemutató diákon láthatjuk, hanem a viszonylag agresszív árazáson is: az RX 7900 XTX 999 dolláros, az RX 7900 XT pedig 899 dolláros hivatalos árral rendelkezik, tehát egyértelműen olcsóbbak, mint az 1200 dolláros GeForce RTX 4080 – hogy az 1600 dolláros RTX 4090-ről ne is beszéljünk.
A fentiekből, illetve az AMD kommunikációjából egyértelmű, hogy a fő ellenfél a GeForce RTX 4080 lesz, mellyel szemben azonban nemcsak a kedvezőbb ár/teljesítményt szeretnék felmutatni, hanem az alacsonyabb fogyasztást, a kisebb fizikai méretet, a fejlettebb szolgáltatásokat (például az 54 Gbps-ot kínáló DisplayPort 2.1-et) és nem utolsósorban azt a tényt, hogy a Radeonokhoz elég két darab hagyományos 6+2 tűs PCIe tápkonnektor is, nem igénylik az egyelőre sok kényelmetlenséget okozó 12VHPWR kábelt.
Mindez persze még csak elmélet, hiszen ahhoz, hogy a gyakorlatban is sikeres legyen az új Radeon-generáció, nemcsak gyorsabbnak kell lennie az RTX 4080-nál, de tartani kell a megcélzott árazást, illetve gondoskodni a bolti készletek feltöltéséről is. Hogy az utóbbi kettővel hogy áll majd az AMD, csak a következő hetekben, hónapokban derül ki; most koncentráljunk először a hardverre, aztán pedig annak tudására!
Versenytársak
VGA megnevezése | ROG STRIX GeForce RTX 4080 16 GB OC Edition |
EVGA GeForce RTX 3090 FTW3 Ultra |
Gainward GeForce RTX 3080 Ti Phoenix |
MSI GeForce RTX 3080 12 GB Suprim X |
AMD Radeon RX 7900 XTX |
AMD Radeon RX 7900 XT |
AMD Radeon RX 6950 XT |
---|---|---|---|---|---|---|---|
Kódnév | AD103-300 | GA102-300 | GA102-225 | GA102-220 | Navi 31 | Navi 21 KXTX | |
Gyártástechnológia | 5 nm (TSMC N4) | 8 nm (Samsung) | 5 (GCD) és 6 (MCD) nm (TSMC) | 7 nm (TSMC) | |||
Mikroarchitektúra | Ada Lovelace | Ampere | RDNA3 | RDNA2 | |||
Tranzisztorok száma | 45,9 milliárd | 28,3 milliárd | 57,7 milliárd | 26,8 milliárd | |||
GPU-lapka mérete | 379 mm2 | 628,4 mm2 | 300 (GCD) + 6x37 (MCD) mm2 | 519,8 mm2 | |||
GPU alap/turbó órajel | 2205/2508 MHz | 1395/1800 MHz | 1365/1665 MHz | 1260/1890 MHz | 2300/2500 MHz | 2000/2400 MHz | 2100/2310 MHz |
GPU/shader órajele üresjáratban |
210 MHz | dinamikusan változó | |||||
Shader processzorok típusa |
stream (16+16 co-issue) | multiprecíziós vektor (32+32 dual-issue) | multiprecíziós vektor | ||||
Számolóegységek száma | 9728 | 10496 | 10240 | 8960 | 6144 | 5376 | 5120 |
Textúrázók száma | 304 textúracímző és -szűrő |
328 textúracímző és -szűrő |
320 textúracímző és -szűrő |
280 textúracímző és -szűrő |
384 textúracímző és -szűrő |
336 textúracímző és -szűrő |
320 textúracímző és -szűrő |
ROP egységek száma | 14 blokk (112) | 12 blokk (96) | 24 blokk (192) | 16 blokk (128) | |||
Memória mérete | 16 384 MB | 24 576 MB | 12 288 MB | 24 576 MB | 20 480 MB | 16 384 MB | |
Memóriavezérlő | 256 bites crossbar | 384 bites crossbar | 384 bites hubvezérelt | 320 bites hubvezérelt | 256 bites hubvezérelt | ||
Memória órajele terhelve | 22 400 MHz (GDDR6X) | 19 496 MHz (GDDR6X) | 19 000 MHz (GDDR6X) | 20 000 MHz (GDDR6) | 18 000 MHz (GDDR6) | ||
Üresjáratban | 51 MHz (GDDR6X) | dinamikusan változó (GDDR6) |
|||||
Max. memória- sávszélesség |
716 800 MB/s | 935 800 MB/s | 912 000 MB/s | 960 000 MB/s | 800 000 MB/s | 576 000 MB/s | |
Dedikált HD transzkódoló |
2x NVENC8 | NVENC7 | 2x RME | RME | |||
Hardveres videó- lejátszás támogatása |
2x NVDEC5 | NVDEC5 | |||||
Hivatalos fogyasztás | ~320 watt | ~350 watt | ~370 watt | ~355 watt | ~315 watt | ~335 watt |
Kattintásra a táblázat kinyílik
Chipletre váltva
Az AMD az RDNA architektúrát már két kör óta nyüstöli, és a rendszer alapjainak megértéséhez érdemes elolvasni az első generációs RDNA-ról írt beszámolónkat, ennek is második, harmadik, negyedik és ötödik oldalát, amelyeken részletesen kifejtjük, hogy az alkalmazott dizájn milyen problémára reflektál. A leírtak igazak az RDNA 2-re is, az új RDNA 3 viszont sok szempontból egy nagyobb frissítésnek számít, és ennek a felépítésébe már jobban belenyúlt a cég, igazodva a változó körülményekhez.
Hirdetés
A továbbfejlesztést két cél alapozta meg: a gyártási költségek minimalizálása, illetve az egységnyi tranzisztorra levetített hatékonyság növelése. Ezekre az AMD külön-külön megoldásokat dolgozott ki, megvizsgálva azokat a tényezőket, amelyek az adott cél szempontjából a nehézséget okozzák.
A gyártási költségek minimalizálása elég nagy kihívásnak számít az iparon belül, de az AMD a Ryzen sorozat esetében már alkalmaz bizonyos megoldásokat a chiplet dizájn által. Nem is volt kérdés, hogy a cég a GPU-k tekintetében is erre megy, sokkal inkább a "hogyan" volt az, ami nem tűnt egyértelműnek. Amíg ugyanis a CPU-knál az IO lapka, illetve a CPU chipletek között kezelhető mennyiségű kommunikáció történik, addig a GPU-k esetében a shader motorok közötti kommunikációt az Infinity Fabric legerősebb verziója sem viselné el. Egyszerűen túl sok adatmozgás történne az egyes chipletek között, hogy ez ne jelentsen limitet.
A CPU-knál alkalmazott particionálás tehát a GPU-knál egyelőre nagyon nem működne, ugyanakkor ez nem jelenti azt, hogy ne lehetne több lapkára építeni. Erre nagyon jó alapot ad a korábbi dizájn nagy fejlesztésének számító Infinity Cache. Ez az előző generációs GPU-kon a belső Infinity Fabric rendszerhez csatlakozik, és innen már adódik az ötlet, hogy itt van lehetőség az olyan jellegű particionálásra, amelynek keretében egy nagy, 5 nm-es node-on készülő GCD, azaz Graphics Compute Die chiplethez csatlakoznának az Infinity Cache-t, illetve a memóriavezérlőt és memóriabuszt tartalmazó 6 nm-es MCD-k, azaz Memory Cache Die chipletek.
Az RDNA 3-mal az AMD az előző bekezdésben leírt módszerre épít, és a koncepció előnye, hogy a MCD-k részben olyan áramköröket tartalmaznak, amelyek a modernebb gyártástechnológiával nem skálázódnak jól. Például a memóriavezérlő és memóriabusz tipikusan ilyen, noha a gyorsítótár esetében a kisebb csíkszélességnek lenne előnye. Ugyanakkor a vállalat szerint a TSMC 5 nm-es eljárása olyan extrém drága a korábbi 6 nm-es node-hoz viszonyítva, hogy még a gyorsítótár skálázódását is érdemes beáldozni, mert drámai mértékben olcsóbb egy korábbi gyártástechnológián készülő chiplet. Ráadásul az MCD-kbe helyezett áramkörök tipikusan olyanok, amelyeknek nem jelentős a fogyasztása, tehát ebből a szempontból sem hasznos számukra az 5 nm-es opció.
A fejlesztés során volt azonban egy nem elhanyagolható probléma, ugyanis a GCD és az MCD-k közötti kommunikáció még az alkalmazott particionálással is nagyjából tízszeresen meghaladja a CPU-knál használt IO lapka, valamint annak CPU chipletjei közötti kommunikációs terhelést. Ez persze abból a szempontból jó hírnek számított, hogy az eredeti ötletként felmerült shader motorok közötti chiplet kialakításnál inkább ezerszeres nagyságrendben mérhető előrelépésre lett volna szükség, tehát a tízszeres eltérés leküzdhető akadálynak tűnt. Ezen az AMD úgy lett úrrá, hogy a CPU-knál alkalmazott úgynevezett IFOP linkek sűrűségét a tízszeresére növelték, így pedig már el is érték a szükséges sávszélességet. A megalkotott rendszer összesítve 5,3 TB/s-os adatátviteli teljesítménnyel bír, és ezzel a jelenlegi leggyorsabb fabric interfésznek számít a piacon. Ráadásul rendkívül hatékony is, mivel a működéséhez szükséges energiaigény a teljes GPU fogyasztásának maximum 5%-át teszi csak ki.
Végül az újszerű chipletkialakítással kezelni kellett a késleltetés problémáját. Az AMD célja itt az volt, hogy az előző generációs, Navi 21 kódnevű csúcsmodell alá vigyék ezt az értéket, ami meglehetősen bátor húzásnak tűnt, hiszen a szóban forgó fejlesztés egy monolitikus dizájnnak számít, tehát az Infinity Cache késleltetése szempontjából nagyon optimális, elvégre lapkán belül történik a teljes kommunikáció. Az új kialakítással azonban az AMD kihasználta azt az előnyt, hogy a felújított Infinity Fabric interfész jóval energiatakarékosabb, ezáltal magasabb órajelen is képes működni anélkül, hogy annak nagyon nagy hátránya lenne a fogyasztásra nézve. Emiatt az Infinity Fabric órajelét 43%-kal megemelték. Azért ennyivel, mert ez tűnt a hatékonyság optimális határának, vagyis a további emelés már arányaiban nagyobb fogyasztásnövekedés hozott volna, mint tempóelőnyt. Ilyen paraméterezés mellett az új dizájn nemhogy hozza a korábbi Infinity Cache kialakítás késleltetését, hanem még nagyjából 10%-ot javít is rajta.
RDNA harmadszor
A gyártási költségek kezelése mellett érdemes rátérni azokra a fejlesztésekre, amelyek az egységnyi tranzisztorra levetített hatékonyságot növelik. Az alapokat tekintve az AMD az első két iteráció után most erőteljesebben hozzányúlt az RDNA architektúrához. Az RDNA 3 architektúra elsőként a Navi 31 kódnevet viselő, 300 mm²-es kiterjedésű GCD-n debütál, amelyet, mint említettük, a TSMC 5 nanométeres eljárásán gyárt a cég, és ezt egészíti ki hat darab, egyenként 37 mm²-es, 6 nanométeres, szintén TSMC node-on gyártott MCD.
Az RDNA 3 multiprocesszora [+]
A multiprocesszorra levetített részletek tekintetében Navi 31-ben 48 darab úgynevezett CUP (Compute Unit Pair) található – korábban ezek WGP néven futottak, de az elnevezésnek nincs lényegi jelentősége. Egy CUP két darab CU-t, azaz Compute Unitot tartalmaz, és ezeken belül van két darab, egymástól teljesen független, saját skalár egységekkel dolgozó, 64 utas, azaz 2048 bites, multiprecíziós SIMD motor.
Itt rögtön el is jutottunk az első nagy újításhoz, ugyanis az RDNA első és második generációs dizájnjában 32 utas, azaz 1024 bites multiprecíziós SIMD motorok voltak a saját skalár egységükre fűzve. Az RDNA 3 tehát megduplázza vektorfeldolgozók szélességét, és egyben átalakítja a variálható wavefrontméretre vonatkozó rendszer működését.
Ahhoz, hogy ezt megértsük, előbb azt kell átfutni, hogy a korábbi két RDNA dizájn miképpen működött. Ezekben a rendszerekben egy Compute Unitra levetítve kétféle módot lehetett alkalmazni, vagyis maga a komplett feldolgozóegység egy 64 vagy két 32 lane-ből álló wavefrontot tudott futtatni. Utóbbi helyzet egyértelmű, hiszen egy ciklusra levetítve pont ilyen wavefrontra van kalibrálva a skalár egységhez kapcsolódó 32 utas SIMD, míg az előbbi konfigurációnál a 64 lane-ből álló wavefrontot a rendszer felbontotta két 32 lane-ből állóra, hogy azt két ciklus alatt le lehessen futtatni a két 32 utas SIMD-en, de logikailag ez olyan, mintha a hardver 64 lane-ből álló wavefrontot dolgozott volna fel.
Az RDNA 3 ezt az egészet úgy variálja át, hogy maga a skalár egységhez társított SIMD motor 64 utas lett, tehát egy ciklus alatt képes egy 64 lane-ből álló wavefrontot futtatni. Ezáltal ennek a működési módnak a kihasználtsága maximálisra, azaz 100%-ra nő, szemben első és második RDNA egy wavefrontra levetített 50%-os hatékonyságával. Az érdekesség azonban nem ez, hanem az úgynevezett VOPD mód, ami lehetővé teszi két 32 lane-ből álló wavefront lefuttatását a 64 utas vektormotoron, és mindezt egy ciklus alatt, a korábbi dizájnokkal megegyező függőségkezeléssel. Ez egyfajta dual-issue konstrukció, amelyben a Flynn-féle osztályozási modellt figyelembe véve a SIMD feldolgozó MIMD-ként is viselkedhet.
A VOPD mód csak 32 bites fix- és lebegőpontos operációkat támogat, ezen belül viszont logikai, összehasonlító, adatmozgató, feltételes, mátrixszorzó és aritmetikai utasításokat is kezel, beleértve a sűrűn használt FMA-t. Ráadásul a két darab, párhuzamosan futó wavefrontnak nem kell szükségszerűen ugyanazt az adattípust használnia. Ennek a változtatásnak leginkább majd a sugárkövetés veszi hasznát, mivel VOPD-t használva két olyan 32 lane-ből álló wavefront is futtatható egy vektormotoron, amelyek közül az egyik sugárkövetéssel kapcsolatos, integer feladatokat végez.
Az RDNA 3 másik újítása, hogy az egy skalár egységhez tartozó 64 utas multiprecíziós SIMD motor támogatja a WMMA-t (Wave Matrix Multiply Accumulate), amivel egy ciklus alatt BFloat16, FP16 és Int8 adattípussal 64 darab Dot2, míg Int4-gyel 64 darab Dot4 operáció hajtható végre. Erre a működési módra az AMD AI Matrix Acceleratorként hivatkozik.
Túllépve a vektormotort érintő átalakításokon, vissza lehet térni a CUP-hez, amelyben 128 kB-os Local Data Share (LDS) található, és ezen a négy darab, egyenként 192 kB-os regiszterterülettel rendelkező SIMD motor osztozik. A helyi adatmegosztás mellett CU-nként egy darab 32 kB-os L0 adat gyorsítótár is fellelhető. Itt látható, hogy az LDS-hez az AMD nem nyúlt, az amúgy is nagyra volt tervezve a korábbi RDNA dizájnokban is, de a regiszterterület másfélszer, míg az L0 adat gyorsítótár kétszer nagyobb lett.
A CUP-ken belül a saját regiszterterülettel és wave pufferrel rendelkező skalár egységekhez tartozik egy közös 16 kB-os skalár és egy 32 kB-os utasítás gyorsítótár. Előbbit csak a skalár feldolgozó éri el, míg utóbbit az összes feldolgozó hasznosíthatja, és természetesen mindkét gyorsítótár írható és olvasható is. Ezek mellett a textúrázást CU-nként egy blokk oldja meg, amely négy darab, csak szűrt mintákkal visszatérő, Gather4-kompatibilis textúrázó csatornát rejt, és a rendszernek ezen a részén egy sugárkövetéshez használható, metszésvizsgálatokat gyorsító blokkal is lehet számolni. Az SFU-k, vagyis a speciális funkciókért felelős egységek összesített száma nem változott, azaz vektormotoronként nyolc feldolgozóról beszélünk, illetve adott még a dupla pontosságot biztosító egy szem 64 bites feldolgozó is. Némileg módosult még a vektormotorok ütemezése is, ugyanis új, szoftveres függőségmenedzsmentet tervezett az AMD.
A gyorsítótárak szervezése logikailag az előző generációt másolja, de esetenként a kapacitás, illetve a gyorsítótárszinteket összeköttető busz sávszélessége nagyobb lett. A memóriavezérlőkhöz a 96 MB kapacitású, Infinity Cache nevű írható és olvasható gyorsítótár kapcsolódik, és a 2,25-ször gyorsabban kommunikáló 6 MB-os, szintén írható és olvasható másodlagos gyorsítótár ehhez van hozzákötve a ROP blokkal egyetemben. Az utóbbi részegységek továbbra is a másodlagos gyorsítótár kliensei, vagyis a pixel- és textúraadatokra vonatkozó memóriaelérések koherensek, továbbá minden ROP blokk saját RB gyorsítótára egy olyan 256 kB-os, L2 cache-sel másfélszer gyorsabb adatmozgást biztosító L1 gyorsítótárhoz kapcsolódik, amelyet még nyolc darab CUP is elér, és ezek az egységek a raszterizálóval együtt ezen osztoznak. Mindemellett az L1 gyorsítótárhoz van bekötve a CU-khoz tartozó L0 cache is.
A ROP blokkok tekintetében a korábbi logikai felépítés maradt meg, vagyis ezek továbbra is úgynevezett pixelmotorokat tartalmaznak, egészen pontosan kettőt, és egy pixelmotor 4 blending, illetve 8 Z mintavételező egységből áll, ami összesen 192 blending és 384 Z mintavételezőt jelent.
Grafikai újítások?
Az már az előző oldal alapján is látszik, hogy az AMD nagyon belenyúlt a rendszerbe, de ezzel még nincs vége, olyan dolgokat is hozott a cég, amelyekre az utóbbi időben egyre kevesebb példa volt. Ha visszagondolunk, akkor az előző egy-két generáció főleg az általános számításokról, illetve a sugárkövetésről szólt, hagyományos grafikai fejlesztés alig-alig érte a rendszereket, leszámítva azt, amit az új API-k megköveteltek. Ugyanakkor még mindig grafikus vezérlőkről van szó, tehát benne van a nevükben, hogy olyan dologra fókuszálnak, amelyek kapcsán egyre kevesebb innovációt kapunk. Persze lehet mondani, hogy a hagyományos eljárásokat tekintve már nincs hova fejlődni, de erre az RDNA 3 most nagyon rá szeretne cáfolni.
A strukturális felépítést tekintve sok dolog ismerős lehet, elvégre a fő alapegység továbbra is a shader motor, amelyből hat darab van a Navi 31-es GPU chipleten belül. Ezek két-két compute blokkra vannak osztva, és egy-egy compute blokkban van egy 256 kB-os L1 gyorsítótár és négy darab CUP, viszont a két ROP blokk, a raszterizáló és a Prim egység megosztva érhető el két compute blokk között. Az általános parancskezelés is látszólag változatlan, hiszen továbbra is négy ACE dolgozik a hardverben, amelyek egy HWS (Hardware Scheduler) fennhatósága alá tartoznak. Ezzel a rendszer összességében 32 compute parancslistát kezel egy grafikai parancslista mellett. Megmaradt a finomszemcsés preempció és a QoS (Quality of Service) támogatása is, amelyek közül előbbi felel azért, hogy a kritikus fontosságú feladatok előnyt élvezzenek, míg utóbbi a többfelhasználós környezet hatékony kezelését teszi lehetővé, ráadásul továbbra is virtualizálható a teljes lapkára, mindezt teljesen automatikus hardveres ütemezés mellett. Természetesen továbbra is a rendszer része első generációs RDNA-ban bevezetett priority tunneling, illetve a globális adatmegosztás, vagy más néven Global Data Share (GDS), de utóbbinak 64 kB-ról 4 KB-ra csökkent a kapacitása.
Itt megjegyeznénk, hogy ha valaki utánaszámol az AMD által megadott specifikációnak, akkor feltűnhet, hogy a hivatalosan megadott úgynevezett stream processzorok száma feleannyi, mint amennyit az architektúra felépítése alapján kalkulálni lehet. A vörös oldal a teljes értékű Navi 31-et alkalmazó Radeon RX 7900 XTX-re 6144 darab feldolgozót ad meg, holott a lapkában hat shader motor van, mindegyikben nyolc CUP-vel, és egy CUP-ben négy 64 utas SIMD motor található. Ez így bizony 12 288 darab feldolgozó. A helyzet az, hogy értelmezés kérdése, hogy melyik számot használjuk. Ha a rendszer 64 lane-ből álló wavefrontokat futtat, akkor a 12 288 a helyes. Amennyiben 32 lane-ből álló wavefrontok futnak, akkor úgy tekinthető helyesnek a 6144 feldolgozó, hogy számításba vesszük a dual-issue képességet, és ezt egyébként az elméleti számítási teljesítmény meghatározásánál már figyelembe is veszi az AMD.
Ezek alapján adódhat a kérdés, hogy mi az újdonság, hiszen eddig nincsenek nagyon látványos változások az RDNA 2-höz képest. Nos, az extrák a motorháztető alatt vannak. Egyrészt a grafikai parancsmotor kapott egy új egységet, ami az MDIA, azaz a Multi-Draw-Indirect Accelerator nevet viseli. Ennek célja a processzor tehermentesítése bizonyos szituációkban, ami azért lehet hasznos, mert a DirectX 12 ugyan jót tett a CPU-k hatékonyabb kihasználásának, de egyre több játékon belül drasztikusan emelkedik a kiadott rajzolási parancsok száma. Ezen pedig újabb csoda az API-k oldalán nem fog segíteni, jobb processzorok kellenek, de ezek se jönnek túl gyorsan. Van azonban egy nagyon sűrűn használt DirectX 12 funkció, ami az ExecuteIndirect nevet viseli, és ezáltal egyetlen API paranccsal több rajzolást is meg lehet oldani, továbbá lehetővé teszi az API hívások CPU és GPU által történő vezérlését, valamint a rajzolási parancsok közötti bekötés módosítását. Ezt majdnem minden DirectX 12-es cím használja, de még így is előfordulhat processzorlimit. A Multi-Draw-Indirect Accelerator egy olyan speciális gyorsító a grafikai parancsprocesszoron belül, amely bizonyos ExecuteIndirecttel kapcsolatos munkákat átvesz a processzortól, ezáltal tehermentesítve azt, vagyis csökkentve a processzorlimit korlátozó hatását. Az AMD mérései szerint az új rendszer – az előző generációhoz viszonyítva – másodpercenként 2,3-szor több rajzolási parancsot képes végrehajtani.
A nyers számok tekintetében fontos figyelembe venni, hogy a Navi 31 esetében 50%-kal nőtt a háromszögek feldolgozásának, illetve a raszterizálásnak teljesítménye a Navi 21-hez viszonyítva, de ez pusztán abból ered, hogy négy helyett hat shader motor van a lapkán belül, tehát ez az előrelépés mondhatni logikus és elvárt. A Prim egységek azonban megújultak, és a korábbi verzióhoz képest már órajelenként nem csak kettő, hanem négy háromszöget is megvizsgálnak NGG módban, így a nem látható háromszögek hardveres kivágása önmagában is kétszeresére gyorsult.
Ezeknél sokkal érdekesebb azonban a ROO, azaz a Random Order Opaque képesség. Itt arról van szó, hogy az AMD lecserélte a viszonylag nagy átrendezési puffert úgynevezett eredménytáblára, aminek két előnye van. Egyrészt viszonylag sok tranzisztort lehet vele megspórolni, másrészt a pixel shaderek eredményének exportját bizonyos feltételek teljesülése esetén sorrendtől függetlenül is engedi, vagyis hamarabb szabadulhatnak fel a lekötött erőforrások a hardveren belül.
Végül szintén új fejlesztés a Pixel Wait Sync, ami finomszemcsés függőségmenedzsmentet vezet be, így egy adott pixel shader feladatra vonatkozó olvasási művelet addig nem következhet be, amíg a függő írási folyamat le nem zárul. Ettől viszont még az egyes folyamatok futtatása megkezdődhet, és ezek szimplán felfüggeszthetők, amíg a folytatásukhoz meg nem érkezik a szükséges eredmény.
Sugárkövetés és Infinity Cache
A sugárkövetés tekintetében az RDNA 3 az alapok szinjtén az RDNA 2 koncepcióját másolja, viszont történt pár előrelépés a rendszer egészét tekintve, ami az AMD szerint akár 80%-os tempóelőnyben nyilvánulhat majd meg.
Az egyik extra a hardveresen menedzselt DXR Ray Flagek. Ez a DirectX Raytracing képesség javítja a háromszögekre, illetve a gyorsítóstruktúrára vonatkozó kivágási műveletek hatékonyságát azáltal, hogy csökkenti a kivágáshoz szükséges bejárási műveletek számát. Emellett új hardverelem segíti a bejárási műveletek csökkentését a különböző sugártípusokkal.
Ezeken túlmenően új ütemező algoritmust alkalmaz az AMD, amely segíti az üres négyes sugárcsoportok kivágását, ezáltal csökkentve a teljes feldolgozáshoz szükséges ciklusok számát, illetve hardveres stackmenedzsment optimalizálásokat kínálnak a rendszer működésének általános javításának érdekében. A korábban említett nagyobb gyorsítótárak, illetve a nagyobb regiszterterület is segíti magát a sugárkövetést.
Infinity Cache
Az Infinity Cache kapcsán feltűnhet, hogy a Navi 31-ben a Navi 21-hez képest csökkent a kapacitás, hiszen az új dizájn 96 MB-ot kínál, szemben az előd 128 MB-jával. Erre érdemes röviden kitérni, ugyanis megvan az oka a változásnak. Az első generációs Infinity Cache valójában nem volt más, mint a Zen dizájnból szimplán átemelt L3 victim cache felhizlalása, és bár a működése egyáltalán nem volt egy GPU-hoz optimalizálva, azért alapvetően hozta a kötelezőt. A második generációs konstrukciót viszont már célzottan a GPU-k igényeihez tervezték, ami azért hasznos, mert ez nagymértékben javít a találati arányon. Ugyan a rendszer maradt victim cache, de sokkal inkább igazodik ahhoz, hogy egy GPU-n belül nem csak pár, hanem nagyságrendekkel több független művelet fut, így felépítését átalakítottták ehhez az igénybevételhez. Emiatt már elég belőle kisebb kapacitású kiépítés is, mert jóval kevesebb lesz a cache miss.
Egyéb újítások
Az AMD egyik fő céljai között szerepel a hatékonyabb energiafelhasználás elérése, és annak érdekében, hogy az utolsó tartalékokat is kihasználják, hozzányúltak a korábbi rendszer frekvenciaértékeihez is. Az elődben minden feldolgozó ugyanazon a magórajelen működött, de az RDNA 3-ban ez már nem így van: a CU-k, vagyis a shaderek, illetve a lapka front-endje, ergo lényegében a parancsmotorok, illetve a raszterizáló és a geometriai futószalag eltérő órajelen futhat.
A működést tekintve az AMD továbbra is megad egy úgynevezett Boost órajelet, ami lényegében a beállítható maximum minden részegységre. Mellé a Game órajel továbbra is azt jelenti, hogy a játékokban a CU-k tipikusan milyen frekvencián működnek, de mostantól a Boost órajelet megkaphatja minden más. Erre elvileg azért volt szükség, mert a mai játékok tipikusan limitáltak a front-end tekintetében, így ezt a korlátozást segítenek egy picit feloldani.
Nagyon fontos kiemelni, hogy maguk a CU-k is képesek a Boost órajelen működni, ha ez belefér a fogyasztási keretbe, itt igazából csak arról van szó, hogy ha ez valamiért nem lehetséges, akkor pusztán emiatt ne érje órajelhátrány a front-endet.
Multimédiában az előző generációban bevezetett Radeon Media Engine (RME) egység erőteljes továbbfejlesztése érkezik. Sőt, a Navi 31-ben valójában nem egy, hanem két multimédiás motorról van szó, amelyek párhuzamosan tudnak dolgozni egymással, vagyis egyszerre történhet kódolás és dekódolás HEVC, H.264, illetve AV1 formátumon. A fő újítás egyébként az AV1 kódolás támogatása, és utóbbi esetében elérhető lesz a másodpercenként 60 képkockát biztosító, 8K-s minőség.
Megjegyzendő, hogy az AMD máris hasznát veszi a Xilinx felvásárlásának, ugyanis az új multimédiás blokkhoz biztosítják a Xilinx-féle Content Adaptive Machine Learning technológiát. Ez eredetileg a Xilinx ACAP-okhoz lett tervezve, de ezekben hasonló DSP-k vannak, mint a Radeonok multimédiás hardverében, tehát viszonylag egyszerű portolni a működését, ráadásul már jogi akadály sincs, hiszen a szoftveres háttér az AMD tulajdonába került. Ezzel az eljárással a hardver a tartalom kódolása során képes felismerni a betűket, és azok minőséget feljavítani még alacsony felbontás és alacsony bitráta mellett is.
Multimédiához kapcsolódó képesség, hogy az AMD bevezeti a SmartAccess Video funkciót, ami akkor használható ki, ha a felhasználó Ryzen 7000 sorozatú CPU-val rendelkezik. Ilyenkor a rendszer nem csak a Radeon RX 7900 sorozatú VGA dupla multimédiás blokkját tudja kamatoztatni, hanem az említett CPU IGP-jének saját megoldását is, és ezáltal párhuzamosan három transzkódolási műveletet végezhet az adott PC, ami összességében 30%-kal képes gyorsítani egy több videó transzkódolásából álló munkafolyamatot.
A kijelzőmotor sem maradt érintetlen, mivel látványos újítása, hogy támogatja a DisplayPort 2.1-es interfészt, és ehhez belül is módosult, mivel most már 54 Gbps-os sávszélességet tud kezelni, miközben színcsatornánként 12 bit érhető el, vagyis összességében akár 68 milliárd szín megjelenítését tudja szavatolni. Az AMD el is nevezte Radiance Display Engine-nek, de ennél fontosabb, hogy képes 8K-s kijelzőket 165 Hz-en meghajtani, 4K-s megjelenítőkkel pedig a 480 Hz válik elérhetővé, és a prognózis szerint az új lehetőségekre érkeznek jövőre a 2.1-es DisplayPort bemenetet használó monitorok.
A Navi31 természetesen az elődhöz hasonlóan támogatja a PCI Express 4.0-t is, méghozzá 16 sáv mellett, amennyiben a terméket megfelelően felkészített platformban veti be a felhasználó. Mindezeken túl elérhető a TrueAudio Next is.
Tesztkörnyezet
A tesztre használt hardverösszeállításunk nem változott korábbi tesztjeink óta: ASRock B550 PG Velocita alaplap, AMD Ryzen 7 5800X processzor és Patriot Viper DDR4-3600 RAM képezi a rendszer alapját.
Alaplap | ASRock B550 PG Velocita |
---|---|
Processzor | AMD Ryzen 7 5800X (PBO: Enabled) |
Processzorhűtő | Fractal Design Celsius S36 |
Memória | 4 x 16 GB Patriot Viper 4 Blackout DDR4-3600 |
Videokártya | - AMD Radeon RX 7900 XTX referencia kártya - AMD Radeon RX 7900 XT referencia kártya (driver mindkét esetben Adrenaline 22.40.00.57) |
SSD | - Kingston UV500 480 GB - Patriot Viper VP4100 1 TB |
Ház | Cooler Master Test Bench V1.0 |
Tápegység | FSP Aurum PT 1200 |
Operációs rendszer | Microsoft Windows 10 Professional x64 22H2 |
A szoftverek – játékok – frontján is a megszokott programokat használtuk. Méréseinket az OCAT segítségével végezzük, az eredményeket pedig átlagolva és az alsó/felső 5 százalékot eldobva vesszük figyelembe.
Játékprogram | API | Videojáték-motor | Beállítások |
---|---|---|---|
Assassin’s Creed Valhalla | DirectX 12 | AnvilNext | Minden maximumon, de Adaptive Quality=OFF |
Dirt 5 | DirectX 12 | Ego | Minden maximumon, DXR bekapcsolva (ahol elérhető) |
Far Cry 6 | DirectX 12 | Dunia | Ultra preset, Motion blur On, DXR Shadows bekapcsolva (ahol elérhető) |
Godfall | DirectX 12 | Unreal 4 | Epic preset, DXR bekapcsolva (ahol elérhető) |
Hitman 3 | DirectX 12 | Glacier 3 | Minden maximumon, DXR kikapcsolva |
Horizon Zero Dawn | DirectX 12 | Decima | Ultimate Quality, Clouds: High |
Metro: Exodus Enhanced Edition | DirectX 12 | 4A | Extreme Preset, RTQ Normal, Reflections Hybrid (csak DXR-rel fut) |
Shadow of the Tomb Raider | DirectX 12 | Foundation | Minden maximumon, SMAAT 2x, Ambient Occlusion: BTAO, FidelityFX sharpening |
Strange Brigade | Vulkan | Asura | Ultra preset, Async Compute on |
Tom Clancy's Ghost Recon Breakpoint | Vulkan | AnvilNext | Ultra preset, resolution scale 100% |
World War Z: Aftermath | Vulkan | Swarm | Minden maximumon, AA: TAA, FidelityFX CAS On |
VGA-k az AMD-től
Tesztalanyaink az AMD-től származnak, így teljes egészében a referencia dizájnra épülnek, amire talán a legjobb szó az, hogy sűrű: a kártyák tömörek, nehezek, nincsenek rajtuk díszítések, sem RGB világítás vagy extra csatlakozó. Bár a felületes szemlélőnek úgy tűnhet, hogy egyforma a két VGA, valójában ez nincs így, az RX 7900 XTX ugyanis magasabb és hosszabb hűtőrendszert kapott. Ennek eredményeként itt a Radeon felirat is kicsit máshova került, illetve a középső ventilátort fehér világítás veszi körbe.
Ezeket leszámítva viszont tényleg nagyon kevés a különbség. Mindkét videokártya két hátsó nyílást foglal a házban, de mivel valójában 2,5 slotos kialakításúak, az alaplap felett három foglaltnyi helyet igényelnek maguknak. Méretük 287 x 125 x 53, illetve 267 x 112 x 53 mm, tehát látványosan kisebbek, mint a monstrum RTX 4080. Ez nagy előny, hiszen ezek a kártyák így normál méretű miditornyokban, sőt akár microATX házakban is elférhetnek, nem szükséges lemondani az előlapi hűtésről. A másik fontos szempont, hogy energiaigényük is alacsonyabb: ahogy a bevezetőben is volt már róla szó, elég nekik két darab 6+2 tűs PCIe csatlakozó, hiszen az XTX 355, az XT pedig 315 wattos TBP-vel rendelkezik (a két 6+2 tűs konnektor hivatalosan 300 wattot képes biztosítani, ehhez jön még a PCIe sínen át leadható 75 watt), így nem feltétlenül kell tehát tápegységet is fejleszteni az VGA cseréjével.
Ahogy a fotókon is látszik, a kártyák külseje elég visszafogott, csak a bordázatra került egy jelzés értékű vörös csík. A Radeon felirat nem világít, a ventilátorok lapátkerekeinek közepére sem került semmi. A három darab, egyirányba forgó, 92 mm átmérőjű egység által meghajtott levegő a bordázaton áthaladva csak lefelé (az alaplap irányába), illetve felfelé tud távozni, a többi irány ugyanis szinte teljesen zárt. A hűtéssel kapcsolatban már most eláruljuk, hogy kiváló hatásfokú, és talán éppen ezért igen halk is.
Az XTX változat hűtése a beáramló levegő hőmérsékletét is méri [+]
A 7900 XTX egy érdekes extrája egyébként, hogy nemcsak a GPU hőmérsékletét méri, de a középső ventilátor alatt egy külön modullal a beáramló levegő hőfokát is, és ennek függvényében is állítja a légkavarók fordulatszámát, illetve a grafikus processzor frekvenciáját.
Felül a 7900 XTX, alul a 7900 XT [+]
Vessünk egy pillantást a hátlapra is, melyen a szitázott feliratok szomszédságában csak négy konnektort találunk: egy HDMI 2.1a-t, két DisplayPort 2.1-et, illetve egy Type-C csatlakozót, mely szintén bevethető DisplayPort 2.1-ként, ha szükséges.
Eredmények: Assassin’ Creed Valhalla
Első játékunknál már látszik, hogy az AMD-nek sikerült jól céloznia, az új kártyák ügyesen megszorongatják az RTX 4080-at: az RX 7900 XT nagyon közel van hozzá ebben a programban, míg az RX 7900 XTX, ha nem is látványos, de mindenképpen érezhető sebességtöbblettel rendelkezik hozzá képest.
Eredmények: Dirt 5
A Dirt 5 esetében némileg módosul a helyzet az Assassin’s Creedhez képest, ennek egyik oka pedig a DXR támogatása, mely még mindig nem megy annyira jól az AMD-nek, mint az NVIDIA-nak. Ettől függetlenül azonban a legfontosabb UHD felbontásban még mindig az RX 7900 XTX a gyorsabb, igaz, nem sokkal.
Eredmények: Far Cry 6
Eredmények: Godfall
Eredmények: Hitman 3
Eredmények: Horizon Zero Dawn
Eredmények: Metro Exodus Enhanced Edition
Eredmények: Shadow of the Tomb Raider
Eredmények: Strange Brigade
Eredmények: Tom Clancy’s Ghost Recon Breakpoint
Eredmények: World War Z
Összefoglalva tehát a tesztekben kapott eredményeket, az AMD céljai, legalábbis teljesítmény szempontjából, teljesülni látszanak, a két Navi 31 gyakorlatilag közrefogja a GeForce RTX 4080-at, ami akkor hangzik különösen jól, ha a megcélzott árszintet is képesek lesznek majd tartani a pirosak.
Fogyasztás és hőmérséklet
A fogyasztás kapcsán az első, amit láthatunk, hogy az új Radeonok ugyan kevesebbet fogyasztanak az RTX 4080-nál, ám a különbség egyáltalán nem olyan óriási. Szintén van előrelépés az elődökhöz (RX 6950 XT, RX 6800 XT) képest, de itt sem éppen forradalmi a változás.
A GPU-k, jobban mondva a teljes VGA fogyasztását bemutató grafikonunkon sem látunk hatalmas eltéréseket az új generáció javára, a hőmérsékletek azonban impozánsak, az új VGA-k kifejezetten hűvösek, így pedig duplán meglepő, hogy a hűtés mennyire halkan dolgozik.
Értékelés
Összegezve az eddig látottakat, ahogy az alábbi diagramok is alátámasztják, az AMD-nek sikerült az RTX 4080-at ügyesen becélozni, és az RX 7900 XTX-szel fölé, az RX 7900 XT-vel pedig alálőni az NVIDIA aktuális élharcosának (az RTX 4090-et most ne keverjük ide – az egészen más teljesítmény- és árkategória, melyet az AMD már jó ideje nem céloz meg). Az előzetesen megadott MSRP függvényében ez nagyon ígéretes, de persze az utóbbi időben az MSRP-vel nem sokra megyünk, az RX 7900-as család sikere attól függ inkább, hogy ténylegesen milyen áron jelenik majd meg a boltokban, és főleg hogy egyáltalán kaphatóak lesznek-e a kártyák nagyobb mennyiségben.
Mindenesetre amíg ennek a két információnak nem vagyunk a birtokában, csak a mért adatokra tudunk támaszkodni, és ezek alapján az RX 7900 XT és RX 7900 XTX mindenképpen ajánlott vétel. Mindkét GPU tökéletesen megfelel az UHD felbontás követelményeinek, modern játékokkal és maximális minőségi beállítások mellett is jól játszható sebességet produkál. Ha pusztán a két kártya közötti árkülönbözetet vesszük alapul, akkor az RX 7900 XTX jobb vételnek tűnik, hiszen 4K felbontáson körülbelül 16%-kal gyorsabb, miközben ára csak 11%-kal magasabb.
A fő versenytárssal összehasonlítva egyébként nemcsak ár/teljesítmény arány miatt tűnnek jó vételnek az AMD kártyái, hanem energiaigényük miatt is: a Radeonoknál nem kell egy új, egyelőre problémás csatlakozót használni, nem kell azon izgulni, hogy lesz-e tápegységünkön elég PCIe konnektor, és attól sem kell félni, hogy közepes toronyházunkban nem tudunk helyet biztosítani egy gigantikus méretű VGA-nak.
AMD Radeon RX 7900 XTX GPU
AMD Radeon RX 7900 XT GPU
Wombath és Abu85
Az AMD Radeon RX 7900 XTX és RX 7900 XT grafikus kártyát az AMD bocsátotta rendelkezésünkre.