Az év második felében robban a VGA-piac

Az AMD és az NVIDIA az év második felétől kezdve frissíti az aktuális termékskálát. Ez igazából már nem is titok, hiszen mindkét cég nyíltabban beszél az új architektúráról, mint azt egyébként a bejelentések előtt szokták, bár az információmegosztás mértéke azért eltérő. Nem is ezt kell figyelembe venni, hanem azt, hogy az érkező termékek lassan a partnerekig is eljutnak, és különösen az OEM-ektől jönnek a szivárgások.

Az AMD-nél hivatalosnak tekinthető, hogy egy Polaris 10 és egy Polaris 11 kódnevű lapka érkezik, amelyek a GlobalFoundries 14 nm-es LPP node-ján készülnek. Előbbi lesz a gyorsabb és persze nagyobb, míg utóbbi inkább az alacsony fogyasztásra helyezi a hangsúlyt. Maga az architektúrát is körvonalazta már az AMD, de a megjelenésről még nem beszéltek. Utóbbi viszont az OEM-ektől származó információink szerint az E3 keretén belül megtartott PC Gaming Show rendezvényen lesz megoldva. Itt tulajdonképpen ugyanaz történik, ami tavaly, amikor bemutatkoztak a Fiji kódnevű lapkára épülő Radeonok.

Az NVIDIA némileg titkolózik, de tulajdonképpen senki sem fog megdöbbenni rajta, hogy a Pascal architektúrára építve egy GP104 és egy GP106 kódnevű lapka jön a GeForce sorozatba. Ezek a TSMC 16 nm-es FF+ node-ját használják, és a korábbi nevezéktanhoz hasonlóan a kisebb számozás jelenti a gyorsabb és nagyobb GPU-t. A vállalat a bejelentésre inkább a Computexet választotta, ami szintén egy júniusi esemény, tehát alig lesz időbeli különbség a két cég által előirányzott hivatalos start között.

Mivel az OEM-ekhez lassan beérnek a mérnöki minták, így pár dolog már tudható az előzetes eredmények tekintetében. Az NVIDIA szempontjából a Pascal architektúrára számos Maxwell architektúrában problémásnak tekinthető tényezőt orvosol. Az első ilyen, hogy a rendszer felújított GMU-kat (Grid Management Unit) kap, amelyek igazodnak a DirectX 12 és a Vulkan API specifikációihoz. Ez azt jelenti, hogy javul a rendszer aszinkron compute melletti teljesítménye, ami fontos tényezőnek tekinthető, hiszen ezt a funkciót eddig minden DirectX 12-es játék használta, és ez a jövőben sem változik meg. Újítás még a compute preempció, amely lényegében azt jelenti, hogy az NVIDIA lecseréli a Fermi, Kepler, Maxwell trió esetében alkalmazott rajzolási szintű modellt egy jóval finomabb szemcsézettségű preempcióra. Utóbbi okvetlenül fontos a virtuális valósághoz, annak érdekében, hogy a GeForce-ot használó játékosok ne legyenek túl hamar és sűrűn rosszul a szórakozás közben. Az új preempciós modell mellett a fejlesztőknek nem kell használni az NVIDIA által ma ajánlott mozaikos leképezési metódust. Bár a Maxwell architektúrának ez továbbra is nagyon fontos, de a vállalatnak gyakorlatiasnak kell lennie, mivel egy ilyen változás hónapokkal csúsztathatja a készülő program megjelenését, ami mellett elképzelhető, hogy a legtöbb kiadó inkább a beépítése ellen szavaz, főleg úgy, hogy a Pascal és a konkurens AMD GCN architektúra sem igényli.

Az AMD oldalán más változások lesznek, mivel azok az újítások, amelyeket az NVIDIA beépít Pascal architektúrába már egy ideje ott vannak az egyes GCN verzióktól kezdve, tehát a vállalat olyan gyakorlati problémákon megoldásán dolgozik, amelyeket már megláttak a Mantle API fejlesztésének idején, vagyis pár évvel ezelőtt.

A GCN4 egyik fontos újítása lesz az utasítás előbetöltés. Az OEM-ektől úgy tudjuk, hogy az AMD szerint egyre több lesz az olyan kritikus fontosságú feladat, amelyeknél a program a lehető leghamarabb vár eredményt. Emiatt növelni kell az egyszálú teljesítményt, de ami ennél is fontosabb az a feladatokhoz tartozó futószalagidők csökkentése. Utóbbi egy olyan fogalom, amellyel eddig nem igazán lehetett találkozni. Ennek az oka, hogy mindmáig nem volt fontos az a tényező, hogy az adott GPU multiprocesszorának úgymond milyen mély a futószalagozása, vagyis mennyi az az idő, ami eltelik a feladatok adatigénylése és a várt adatok beérkezése között. Az aktuális GPU-k futószalagozásának mélysége ezer és tízezer ciklus közötti, vagyis – az elemzés egyszerűsítése miatt némileg szabadabban értelmezve az órajeleket – legjobb esetben 1, legrosszabb esetben 10 mikromásodpercnyi idő szükséges az adatok beérkezéséig. A dolgok pikantériája itt az, hogy a megfelelő programfuttatási sebességet feltételezve tízezer rajzolási parancs képkockánként már nagyjából csak 1 mikromásodpercnyi késleltetést enged meg a GPU-n belüli szálak esetében, és ha a rajzolási parancsok száma nő, akkor a bizony bőven bele lehet csúszni a mai hardverek futószalagozási modelljének limitjeibe. Ez a limit ráadásul pokolian nehezen kezelhető, és bár kézenfekvő lenne több konkurens szálat indítani, de ehhez új memóriamodellekre van szükség, ráadásul a túl sok konkurens szál ártalmas is lehet. Az AMD nézőpontja szerint az utasítás előbetöltés jelenleg a legjobb módszer a fenti korlát elkerülésére, mivel így akár bőven 1 mikromásodperc alá vihető a futószalagidő azzal, hogy a szükséges adat igénylése az előbetöltésnek hála még a tényleges igényre vonatkozó parancs kiadása előtt megtörténik. Ezzel a módszerrel a rengeteg rajzolási paranccsal dolgozó alkalmazások lényegesen jobban fognak skálázódni a grafikus vezérlőn belül.

A Polaris másik érdekessége a nem látható primitívek eldobása lesz. Utóbbi szintén egy újdonság, mivel manapság van számos kivágási módszer, de a nem látható háromszögek egy része így is átcsúszik. Itt a kérdés sosem az volt, hogy lehetséges-e ezek kiszűrése, hanem az, hogy megéri-e rásegíteni. Egy megfelelő szűrési metódus hardverbe építése ugyanis sok tranzisztorba kerül, és itt figyelembe kell venni, hogy mivel jár jobban a piac. A dedikált hardver tranzisztorigénye ugyanis befordítható általános feldolgozókba, vagyis azt kell eldönteni, hogy meg kell-e szabadítani a GPU-t a felesleges feladatok elvégzésétől egy célhardver segítéségével, vagy érdemes több feldolgozót beépíteni, és akkor a felesleges feladatokhoz szükséges erő is biztosítva lesz. Az AMD úgy gondolja, hogy eljött az a fordulópont, amikor egy célhardver a nem látható primitívek eldobására előnyösebb, mint a több feldolgozóra való törekvés. Utóbbi leginkább akkor jelent előnyt, amikor komplex jeleneteken történik a számítás, és ebből a szempontból az AMD meglátása helyes lehet, mivel számos olyan játék van a piacon, amelyeknél bizonyos jelenetek mellett a raszterizálás hatékonysága 50% közelébe csökken. Ilyenkor az extra feldolgozóknál sokkal többet segít a nem látható primitívek eldobása, ami drasztikusan megnövelheti a minimum fps-t. Az átlagos teljesítményre ez a funkció kevésbé lesz hatással, mivel a programfuttatás nagy részében nem megy át egy kritikus határon a jelenet komplexitása.

Azóta történt

Előzmények

Hirdetés