Innováció NVIDIA-módra

Több hónapnyi várakozás után végre elérkezett a játékosok nagy napja. Az NVIDIA beszélt az ősszel bemutatott Fermi architektúra grafikáért felelős részéről is. Nem akarjuk tovább gyűrni az érdeklődők idegeit, így most leszögezzük: a DirectX 11-gyel kompatibilis GF100 kódnevű lapka technikai szempontból nagyon ütősre sikeredett, mondhatni igazi innováció. Ez a szó az elmúlt években valamiért nem volt jellemző a zöldekre, hiszen főleg az AMD hozta a játékosok és a szabvány számára értékelhető elgondolásokat, míg az NVIDIA sajnos formán kívül volt, aminek hatására a saját, zárt fejlesztésű platformjaik mögé bújt. Ezek után nem meglepő, hogy a mérnöki gárda megrázta magát, mivel az elmúlt évek nem voltak pozitív hatással a GeForce márkanév ázsiójára.


A GF100 logikai felépítése [+]

Mi van a kupak alatt?

Azt már jó ideje tudjuk, hogy az új generációs, GF100 kódnevű lapka több mint 3 milliárd tranzisztorból áll. Ebbe a pokolian magas számba 16 streaming multiprocesszort sikerült beépíteni, ami tulajdonképpen a Fermi lelke. Mindegyik ilyen egység 32 darab úgynevezett CUDA magot tartalmaz két csoportba rendezve. Ezeken a 16 utas feldolgozókon lesznek párhuzamosan végrehajtva az utasításszavak. Mindegyik CUDA mag rendelkezik egy-egy 32 bites fix-, illetve lebegőpontos végrehajtóval. Eleddig ismeretlen volt a rendszer textúrázási képessége, ám most ez megváltozott. Az egyes streaming multiprocesszorok négy-négy textúracímzőt és textúraszűrőt alkalmaznak, és egy-egy ilyen csatornához négy mintavételező tartozik. Ez jelentős változás az előző generációs, 80 textúrázó csatornát használó GT200-hoz viszonyítva, de a DirectX 11-es API ilyen blokkokat követel meg. Az új játékok főleg a mintavételező kapacitástól függenek majd, így a címzőkre és szűrőkre vonatkozó visszalépésnek a teljesítményben nem sok jelentősége lesz. Természetesen a tervezők a speciális végrehajtó egységeket sem hagyták ki, egy streaming multiprocesszorban összesen négy ilyen ALU található, melyek trigonometrikus és transzcendens utasításokat képesek futtatni.


Streaming multiprocesszor

A memóriahierarchia szempontjából a GF100 egy 768 kB kapacitású megosztott L2 gyorsítótárat alkalmaz, mely minden streaming multiprocesszornak elérhető. Az utóbbi egységek 64 kB-os L1 gyorsítótárral rendelkeznek, mely a feladatnak megfelelően dinamikusan szétosztható egy 16 és egy 48 kB-os részre, attól függően, hogy mekkora megosztott memóriát igényelnek a CUDA magok. A grafikus feldolgozás esetén a DirectX 11 specifikációinak megfelelően kötelező a nagyobb szeletet kapniuk, mivel 32 kB-os helyi adatmegosztást (Local Data Share) ír elő a szabvány. A megújult textúrázó csatornák egyenként 12 kB-os gyorsítótárat alkalmaznak.

Hirdetés

Komoly újítás, hogy a másodlagos gyorsítótárat írhatják is a streaming multiprocesszorok, azaz egymás számára közzétehető bármilyen adat. Fontos azonban megjegyezni, hogy a grafikus processzor rengeteg szálat vezérel, aminek hatására a rendszer csak a streaming multiprocesszorokon belül képes a koherenciát biztosítani, azaz felügyelni, hogy az egyes programszálak ne írjanak ugyanarra a címre. Az L2 tárban gyakorlatilag felmerül a félkoherencia problémája, így semmi sem garantálja, hogy az egyes címeket ne írja felül más-más mag egymás után. Erre a programozóknak kell majd ügyelniük, mivel a jelenségre nincs hatásos gyógyír. Esetleg az is elképzelhető, hogy az NVIDIA csak olvashatóvá teszi a másodlagos gyorsítótárat, ami megszünteti a bonyodalmakat.

A lapka memóriavezérlője 384 bites lesz, amely 64 bites csatornákra oszlik szét. Egy-egy csatornához két ROP blokk tartozik, így a rendszer összesen 12 darab ilyen egységet tartalmaz. A fedélzeti memória lehet GDDR3 vagy GDDR5 szabványú, utóbbi esetben rendkívül magas memória-sávszélesség érhető el.


A raszter és a PolyMorph motor [+]

A GF100 egyik sarkalatos pontja a felújított setup motor. Manapság egy grafikus processzor egy ilyen egységgel rendelkezik, azonban az NVIDIA megszakította ezt a hagyományt és új elgondolással állt elő, aminek a hatására a hagyományos értelemben vett setup motort egy raszteres és egy úgynevezett PolyMorph részre vágta. Az előbbi egységből négy található a lapkában, így egy raszter motor négy-négy streaming multiprocesszorról gondoskodik. Ezt a felállást a vállalat Graphics Processing Clusternek (GPC) keresztelte el. Egy raszter motor egyébként órajelenként 8 pixelt képes feldolgozni, ami a teljes lapkára nézve 32 pixelt jelent. A streaming multiprocesszorokban található PolyMorph motor a geometriával kapcsolatos munkálatokat végzi. Érdemes észrevenni, hogy a DirectX 11 szempontjából fontos tesszellátor is ebben az egységben található, ami azt jelenti, hogy az NVIDIA összesen 16 darab fixfunkciós feldolgozót alkalmaz, szemben az AMD egy tesszellátorával. Itt látható, hogy a zöldek erősen a túlerőre játszottak, hiszen az AMD-nek közel 8 évnyi tapasztalata van a tesszellációval. Ez természetesen a teljesítmény szempontjából fantasztikus elgondolás, ám a vállalat ezért hatalmas többletet fizet a tranzisztorok terén.

Az órajelekről az NVIDIA még nem beszélt, ám annyit tudni lehet, hogy a rendszer nagy része az úgynevezett GPC frekvencián üzemel. A CUDA magok és a speciális végrehajtó egységek minden órajelnél, míg a textúrázók, a raszter, valamint a PolyMorph motorok minden második órajel mellett végeznek egy feladatot. A magórajel mostantól csak a ROP blokkokért és a másodlagos gyorsítótárért felel.

Sajnos problémák is vannak

Ahogy mindenki érzékelte, a GF100 az eredeti tervekhez képest késésben van. A lapka már a harmadik revíziójánál tart, de már a negyedik variánsról lehet híreket hallani. Az NVIDIA tökéletesen felépített architektúrája a TSMC rendkívül gyenge 40 nm-es gyártósorairól kerül majd le, amik sajnos a kisebb lapkákkal sem boldogulnak. Az információk szerint az AMD a strukturálisan megfelelő, 334 mm2-es Cypress chipet jelenleg 60 és 70% közötti kihozatallal gyártja, ami a mérethez mérten meglehetősen alacsony érték annak tükrében, hogy a technológia a TSMC közleménye szerint több mint egy éve alkalmazható a tömeggyártásban. A fizika sajnos kifogott a világ legnagyobb bérgyártóján, és nagyon nehezen találják a mérnökök a gyógymódot. A Cypress lapkára épülő kártyák a kezdeti időszakban nehezen beszerezhető megoldások voltak, a kihozatal pedig az adatok alapján 40% körül mozgott. Kérdés, hogy mire számíthat egy 500 mm2-nél is nagyobb lapka, ami nem biztos, hogy az ideális struktúrát használja a gyártósorokhoz. A pletykák szerint az A3-as chip kezdeti kihozatala kicsivel 20% fölött lesz, ami gyakorlatilag semmi jót nem jelent.

Más utakon

Mostanra tökéletesen látszik, hogy az AMD egy gyökeresen eltérő stratégiát indított a Radeon HD 3000 szériánál bemutatkozó Sweet Spot kapcsán. A mérethez viszonyított teljesítményt helyezték előtérbe, és egy nagyméretű lapka helyett inkább két felsőkategóriás megoldást alkalmaznak a csúcskártya esetében. Az NVIDIA ezzel szemben továbbra is hisz a méretes grafikus processzorban, így a fejlesztéseket erre építik. Mindkét elgondolásnak vannak buktatói és előnyei. A Sweet Spot stratégia főleg akkor hasznos, ha a vállalat az olcsóbb gyártást tartja fontosnak, továbbá hatalmas előny, ha a gyártósorok hatékonysága az elvárt szint alatt teljesít. Az NVIDIA gigászi GPU-ja az abszolút teljesítményre helyezi a hangsúlyt, ám ehhez kulcsfontosságú a megfelelő gyártástechnológiai háttér. Természetesen senki sem számított rá, hogy ilyen gyengén teljesít majd a két cég közös bérgyártója, így a verseny kialakulása gyakorlatilag a TSMC-től függ. Az utóbbi vállalat természetesen érzi a partnerek elégedetlenségét, és a tervek szerint idén 3000 új emberrel próbálják az erőforrásaikat növelni.

Az új generációs GeForce játékbeli teljesítményéről csak egy biztos érték van. Az NVIDIA a Far Cry 2 beépített tesztprogramját futtatta egy előzetes kártyán, mely 1920x1200-as felbontáson, négyszeres élsimítás és maximális beállítás mellett másodpercenként 84 képkocka kirajzolását mérte. Sajnos a HD 5870 értékei nem voltak feltüntetve, de körülbelül azonos körülmények esetén 65-68 képkocka/másodperc sajtolható ki a rendszerből. Az adatokból kiindulva a HD 5970 egyelőre befoghatatlannak tűnik, így nagyon fontos a fermis GeForce-ot az ár szempontjából jól pozicionálni.

A fogyasztásról szintén nem beszélt az NVIDIA, de az biztos, hogy komoly energiaigénye lesz az új csúcs-GeForce-nak. A házgyártók 280-300 wattos fogyasztásról pletykálnak, sőt az SLI-s konfigurációk kiépítéséhez speciális kialakítású szélcsatorna szükséges, ami a meleg helyzetekben is megőrzi a rendszer stabilitását. Az első GF100-ra épülő grafikus kártya márciusban várható, az órajelei nem ismertek, mivel az NVIDIA az utolsó pillanatig teszteli a tömeggyártás szempontjából alkalmazható maximális értékeket.

Azóta történt

Előzmények

Hirdetés