Szivárognak az információk az új generációs VGA-król

A VGA-piac a legfrissebb pletykák szerint még az idei évre is tartogat egy nehézsúlyú összecsapást, de valójában már mindkét cég a következő esztendőre készül. Ennek hála lassan elkezdenek szivárogni az információk a lehetséges felhozatalról.

Annyi biztos, hogy az AMD és az NVIDIA is beveti a HBM2 memóriákat, de az a pletyka járja, hogy a zöldek ilyen irányba csak a csúcslapka szempontjából gondolkodnak, míg az AMD már a két legerősebb lapkára helyezne új generációs memóriát. A többi GPU-n GDDR5 vagy GDDR5X szabványú memória lesz, attól függően, hogy az adott lapkához mi az ideális választás.

Hirdetés

Bár ebből a szempontból az lenne a logikus, hogy a VGA-k lerövidülnének, de az AMD partnerei szeretnék, ha a Radeonok esetében az SFF dizájnok, vagyis a nagyjából 6 hüvelyk hosszú VGA-k továbbra is prémium árazást kapnának, mivel a GDDR5 vagy GDDR5X lapkákkal rendelkező GeForce-ok ezekre úgy sem jelentenek fenyegetést. A prémium árazás nélküli rövid VGA-k tehát inkább csak 2017-ben fognak elterjedni, amikor már szinte minden terméken HBM2 lesz. Ennek az OEM gyártók valószínűleg nem fognak örülni, mivel ideális árcédulák mellett már 2016-ban letarolták volna a piacon nagyon apró házba épített erős, de megfizethető konfigurációkkal.

Az architektúrát tekintve az AMD marad a GCN modernizált verziójánál, amely GCN4 néven fut. Annyit sikeresen kiolvastunk az AMD fejlesztőeszközeiből és meghajtóiból, hogy ez a GCN verzió már más kódolási sémát használ, mint ez előző három változat, így egy nagyobb áttervezés történt. Ez persze nem jelenti feltétlenül azt, hogy változik a multiprocesszoron belüli feldolgozók száma, vagy éppen a logikai felépítés, csupán magát a memória- és szinkronizációs modellt cseréli le az AMD, hogy tovább skálázódjon a rendszer. Friss pletykák szerint a regiszterek kapacitása is megduplázódik, amivel az új dizájnban CU-nként már fél megabájtnyi regiszter állna a fejlesztők rendelkezésére. Ez logikus lépés lenne, mivel az aktuális GCN dizájnokban a CU-nkénti összesen 256 kB-nyi regiszter jelenti a szűk keresztmetszetet, ami miatt esetleg bizonyos shaderek mellett nem futtatható 10 wavefront, de akár még 7 sem, ami az AMD által megadott hatékonysági minimum. Kétszer annyi regiszterrel a fejlesztők sokkal boldogabbak lennének.

Úgy tudjuk, hogy a következő generációs Radeonokban az ACE egységeket is teljesen felváltják a modernebb HWS blokkok, így már nem kell ezeket keverni, mint ahogy azt az AMD most teszi a GCN3-as dizájnokban. Ez alapvetően lehetővé teszi azt, hogy az érkező hardverek minden compute parancsprocesszorból támogassák a QoS-t. Utóbbi a többfelhasználós környezetek hardveres kiszolgálásának alapja.

Az NVIDIA a Pascal esetében több változást vezet majd be, mivel a vállalat ezek beépítésével inkább várt. A legfontosabb újítás a 16 bites lebegőpontos utasítások teljes értékű támogatása. Ez nem újdonság az iparágon belül, hiszen az Intel, az AMD, és számos ultramobil piacon érdekelt gyártó már bevezette, így lényegében az NVIDIA ebből a szempontból utolsóként lép, de ez a funkció fontos a gépi tanulás hatékony kiszolgálása érdekében. Azt meg kell jegyezni, hogy az NVIDIA a Tegra X1-be épített Maxwell dizájnban bevezette a 16 bites lebegőpontos utasítások támogatását, de ezt csak és kizárólag a CUDA alól lehet úgy elérni, hogy egy 32 bites feldolgozón két 16 bites utasítás legyen futtatható. Más környezetben csak egy 16 bites utasítás fog lefutni. A Pascal támogatása erre vonatkozóan sokkal jobb lesz, nagyjából olyan szintű, amit az Intel és az AMD kínál az aktuális frissebb dizájnokban.

A Pascal kapcsán érdekes pletyka a VLIW dizájn visszatérése. Utóbbival már nagyon régóta szemez az NVIDIA, mivel jelentősen egyszerűsíthető a hardver, ha az ütemezés nagy része a szoftveres rétegbe lesz helyezve, és ezzel javítható az adott dizájn energiahatékonysága. A legfrissebb feltételezések szerint az új CUDA mag egy VLIW feldolgozó lesz, ami négy FP16-os vagy két FP32-es vagy egy FP64-es operációt hajthat végre. Bár a VLIW-ről a GPGPU tekintetében megoszlanak a vélemények, egy ilyen rendszert a mátrixszorzásra (GEMM) nagyon is kigyúrható, és a gépi tanuláshoz ez kell. Emiatt az NVIDIA-t is az érdekli, hogy a Pascal a mátrixszorzást rendkívül hatékonyan oldja meg.

Friss pletyka még az is, hogy a Pascal felhagy azzal a megközelítéssel, hogy a multiprocesszorban csak egyetlen megosztott memóriablokkot használ, és lesz egy különálló LDS, illetve egy különálló L1 adat gyorsítótár. Ezt a koncepciót az Intel és az AMD már egy ideje alkalmazza, és emiatt jóval gyorsabban tudnak üzemmódot váltani, mint az NVIDIA.

A gyártástechnológia szempontjából úgy néz ki, hogy mindkét cég a TSMC 16 nm-es node-ját választja, ami logikus döntés, mivel eddig minden GPU-t a TSMC-nél gyártottak, és a csíkszélesség csökkentésénél nem árt a stabil alap.

Azóta történt

Előzmények

Hirdetés