Innováció NVIDIA-módra

Írta: Abu85
Forrás: PROHARDVER!
2010-01-18 12:39

Több hónapnyi várakozás után végre elérkezett a játékosok nagy napja. Az NVIDIA beszélt az ősszel bemutatott Fermi architektúra grafikáért felelős részéről is. Nem akarjuk tovább gyűrni az érdeklődők idegeit, így most leszögezzük: a DirectX 11-gyel kompatibilis GF100 kódnevű lapka technikai szempontból nagyon ütősre sikeredett, mondhatni igazi innováció. Ez a szó az elmúlt években valamiért nem volt jellemző a zöldekre, hiszen főleg az AMD hozta a játékosok és a szabvány számára értékelhető elgondolásokat, míg az NVIDIA sajnos formán kívül volt, aminek hatására a saját, zárt fejlesztésű platformjaik mögé bújt. Ezek után nem meglepő, hogy a mérnöki gárda megrázta magát, mivel az elmúlt évek nem voltak pozitív hatással a GeForce márkanév ázsiójára.

A GF100 logikai felépítése [+]

Mi van a kupak alatt?

Azt már jó ideje tudjuk, hogy az új generációs, GF100 kódnevű lapka több mint 3 milliárd tranzisztorból áll. Ebbe a pokolian magas számba 16 streaming multiprocesszort sikerült beépíteni, ami tulajdonképpen a Fermi lelke. Mindegyik ilyen egység 32 darab úgynevezett CUDA magot tartalmaz két csoportba rendezve. Ezeken a 16 utas feldolgozókon lesznek párhuzamosan végrehajtva az utasításszavak. Mindegyik CUDA mag rendelkezik egy-egy 32 bites fix-, illetve lebegőpontos végrehajtóval. Eleddig ismeretlen volt a rendszer textúrázási képessége, ám most ez megváltozott. Az egyes streaming multiprocesszorok négy-négy textúracímzőt és textúraszűrőt alkalmaznak, és egy-egy ilyen csatornához négy mintavételező tartozik. Ez jelentős változás az előző generációs, 80 textúrázó csatornát használó GT200-hoz viszonyítva, de a DirectX 11-es API ilyen blokkokat követel meg. Az új játékok főleg a mintavételező kapacitástól függenek majd, így a címzőkre és szűrőkre vonatkozó visszalépésnek a teljesítményben nem sok jelentősége lesz. Természetesen a tervezők a speciális végrehajtó egységeket sem hagyták ki, egy streaming multiprocesszorban összesen négy ilyen ALU található, melyek trigonometrikus és transzcendens utasításokat képesek futtatni.

Streaming multiprocesszor

A memóriahierarchia szempontjából a GF100 egy 768 kB kapacitású megosztott L2 gyorsítótárat alkalmaz, mely minden streaming multiprocesszornak elérhető. Az utóbbi egységek 64 kB-os L1 gyorsítótárral rendelkeznek, mely a feladatnak megfelelően dinamikusan szétosztható egy 16 és egy 48 kB-os részre, attól függően, hogy mekkora megosztott memóriát igényelnek a CUDA magok. A grafikus feldolgozás esetén a DirectX 11 specifikációinak megfelelően kötelező a nagyobb szeletet kapniuk, mivel 32 kB-os helyi adatmegosztást (Local Data Share) ír elő a szabvány. A megújult textúrázó csatornák egyenként 12 kB-os gyorsítótárat alkalmaznak.

Hirdetés

Komoly újítás, hogy a másodlagos gyorsítótárat írhatják is a streaming multiprocesszorok, azaz egymás számára közzétehető bármilyen adat. Fontos azonban megjegyezni, hogy a grafikus processzor rengeteg szálat vezérel, aminek hatására a rendszer csak a streaming multiprocesszorokon belül képes a koherenciát biztosítani, azaz felügyelni, hogy az egyes programszálak ne írjanak ugyanarra a címre. Az L2 tárban gyakorlatilag felmerül a félkoherencia problémája, így semmi sem garantálja, hogy az egyes címeket ne írja felül más-más mag egymás után. Erre a programozóknak kell majd ügyelniük, mivel a jelenségre nincs hatásos gyógyír. Esetleg az is elképzelhető, hogy az NVIDIA csak olvashatóvá teszi a másodlagos gyorsítótárat, ami megszünteti a bonyodalmakat.

A lapka memóriavezérlője 384 bites lesz, amely 64 bites csatornákra oszlik szét. Egy-egy csatornához két ROP blokk tartozik, így a rendszer összesen 12 darab ilyen egységet tartalmaz. A fedélzeti memória lehet GDDR3 vagy GDDR5 szabványú, utóbbi esetben rendkívül magas memória-sávszélesség érhető el.

A raszter és a PolyMorph motor [+]

A GF100 egyik sarkalatos pontja a felújított setup motor. Manapság egy grafikus processzor egy ilyen egységgel rendelkezik, azonban az NVIDIA megszakította ezt a hagyományt és új elgondolással állt elő, aminek a hatására a hagyományos értelemben vett setup motort egy raszteres és egy úgynevezett PolyMorph részre vágta. Az előbbi egységből négy található a lapkában, így egy raszter motor négy-négy streaming multiprocesszorról gondoskodik. Ezt a felállást a vállalat Graphics Processing Clusternek (GPC) keresztelte el. Egy raszter motor egyébként órajelenként 8 pixelt képes feldolgozni, ami a teljes lapkára nézve 32 pixelt jelent. A streaming multiprocesszorokban található PolyMorph motor a geometriával kapcsolatos munkálatokat végzi. Érdemes észrevenni, hogy a DirectX 11 szempontjából fontos tesszellátor is ebben az egységben található, ami azt jelenti, hogy az NVIDIA összesen 16 darab fixfunkciós feldolgozót alkalmaz, szemben az AMD egy tesszellátorával. Itt látható, hogy a zöldek erősen a túlerőre játszottak, hiszen az AMD-nek közel 8 évnyi tapasztalata van a tesszellációval. Ez természetesen a teljesítmény szempontjából fantasztikus elgondolás, ám a vállalat ezért hatalmas többletet fizet a tranzisztorok terén.

Az órajelekről az NVIDIA még nem beszélt, ám annyit tudni lehet, hogy a rendszer nagy része az úgynevezett GPC frekvencián üzemel. A CUDA magok és a speciális végrehajtó egységek minden órajelnél, míg a textúrázók, a raszter, valamint a PolyMorph motorok minden második órajel mellett végeznek egy feladatot. A magórajel mostantól csak a ROP blokkokért és a másodlagos gyorsítótárért felel.

Sajnos problémák is vannak

Ahogy mindenki érzékelte, a GF100 az eredeti tervekhez képest késésben van. A lapka már a harmadik revíziójánál tart, de már a negyedik variánsról lehet híreket hallani. Az NVIDIA tökéletesen felépített architektúrája a TSMC rendkívül gyenge 40 nm-es gyártósorairól kerül majd le, amik sajnos a kisebb lapkákkal sem boldogulnak. Az információk szerint az AMD a strukturálisan megfelelő, 334 mm²-es Cypress chipet jelenleg 60 és 70% közötti kihozatallal gyártja, ami a mérethez mérten meglehetősen alacsony érték annak tükrében, hogy a technológia a TSMC közleménye szerint több mint egy éve alkalmazható a tömeggyártásban. A fizika sajnos kifogott a világ legnagyobb bérgyártóján, és nagyon nehezen találják a mérnökök a gyógymódot. A Cypress lapkára épülő kártyák a kezdeti időszakban nehezen beszerezhető megoldások voltak, a kihozatal pedig az adatok alapján 40% körül mozgott. Kérdés, hogy mire számíthat egy 500 mm²-nél is nagyobb lapka, ami nem biztos, hogy az ideális struktúrát használja a gyártósorokhoz. A pletykák szerint az A3-as chip kezdeti kihozatala kicsivel 20% fölött lesz, ami gyakorlatilag semmi jót nem jelent.

Más utakon

Mostanra tökéletesen látszik, hogy az AMD egy gyökeresen eltérő stratégiát indított a Radeon HD 3000 szériánál bemutatkozó Sweet Spot kapcsán. A mérethez viszonyított teljesítményt helyezték előtérbe, és egy nagyméretű lapka helyett inkább két felsőkategóriás megoldást alkalmaznak a csúcskártya esetében. Az NVIDIA ezzel szemben továbbra is hisz a méretes grafikus processzorban, így a fejlesztéseket erre építik. Mindkét elgondolásnak vannak buktatói és előnyei. A Sweet Spot stratégia főleg akkor hasznos, ha a vállalat az olcsóbb gyártást tartja fontosnak, továbbá hatalmas előny, ha a gyártósorok hatékonysága az elvárt szint alatt teljesít. Az NVIDIA gigászi GPU-ja az abszolút teljesítményre helyezi a hangsúlyt, ám ehhez kulcsfontosságú a megfelelő gyártástechnológiai háttér. Természetesen senki sem számított rá, hogy ilyen gyengén teljesít majd a két cég közös bérgyártója, így a verseny kialakulása gyakorlatilag a TSMC-től függ. Az utóbbi vállalat természetesen érzi a partnerek elégedetlenségét, és a tervek szerint idén 3000 új emberrel próbálják az erőforrásaikat növelni.

Az új generációs GeForce játékbeli teljesítményéről csak egy biztos érték van. Az NVIDIA a Far Cry 2 beépített tesztprogramját futtatta egy előzetes kártyán, mely 1920x1200-as felbontáson, négyszeres élsimítás és maximális beállítás mellett másodpercenként 84 képkocka kirajzolását mérte. Sajnos a HD 5870 értékei nem voltak feltüntetve, de körülbelül azonos körülmények esetén 65-68 képkocka/másodperc sajtolható ki a rendszerből. Az adatokból kiindulva a HD 5970 egyelőre befoghatatlannak tűnik, így nagyon fontos a fermis GeForce-ot az ár szempontjából jól pozicionálni.

A fogyasztásról szintén nem beszélt az NVIDIA, de az biztos, hogy komoly energiaigénye lesz az új csúcs-GeForce-nak. A házgyártók 280-300 wattos fogyasztásról pletykálnak, sőt az SLI-s konfigurációk kiépítéséhez speciális kialakítású szélcsatorna szükséges, ami a meleg helyzetekben is megőrzi a rendszer stabilitását. Az első GF100-ra épülő grafikus kártya márciusban várható, az órajelei nem ismertek, mivel az NVIDIA az utolsó pillanatig teszteli a tömeggyártás szempontjából alkalmazható maximális értékeket.

Hozzászólások (511)

Kapcsolódó cégek:
NVIDIA

Azóta történt

Előtérbe kerülnek a PhysX hibái?

Az AMD szerint az NVIDIA szándékosan korlátozza a rendszer képességeit a többmagos processzorok esetében.

Hír 2010-01-21 241
Az NVIDIA jogosulatlanul használja a Rambus szabadalmait

Az ITC szerint a grafikus processzorokat fejlesztő cég négy szabadalmat is megsértett.

Hír 2010-01-26 94
Három új mobil Quadróval rukkolt elő az NVIDIA

A professzionális megoldások mellett a márciusban startoló fermis GeForce-ok nevére is fény derült.

Hír 2010-02-02 32
Az NVIDIA a TSMC-t hibáztatja a gyenge ellátásért

A vállalat szerint a negyedik negyedéves pénzügyi eredmények jobbak is lehettek volna, ha a bérgyártó több 40 nm-es lapkát gyárt.

Hír 2010-02-18 109

Előzmények

Körvonalazódik a Fermi megjelenési ideje

A rémhírek ellenére az NVIDIA elégedett a termék teljesítményével.

Hír 2009-12-29 123
Az NVIDIA szerint jelentéktelen a Radeonok előnye

Michael Hara nem tartja problémának az AMD egyeduralmát a DirectX 11-es kártyák szegmensében.

Hír 2009-12-21 351
Extrém sebességre kapcsolt az NVIDIA

A Fermi A3-as verzióját már újévkor megkapja a vállalat.

Hír 2009-12-14 208
Az AMD elindult a DirectX 11 ösvényén

Grafika felsőfokon, avagy górcső alatt az új generációs Radeon HD 5800 felépítése.

Elemzés 2009-09-30 226

Percről percre

MG4 menetpróba

ma Mindenképpen van fantázia az MG4-ben, az alapfeladatokat olcsón kipipálja, de többet akar nyújtani, mint amire képes.

A TikTokon marakodik Trump és Biden

it Trump szerint ha betiltják a TikTokot, annak a felelőse Biden lesz. A betiltás Trump szerint csak a Metát tenné még gazdagabbá.

20 ezer új munkást visz Eindhovenbe az ASML

it Hatalmas politikai feszültséget okozott az ASML és a holland kormány nézeteltérése, de most úgy néz ki, hogy jelentős bővítésbe kezdenek Eindhovenben.