Odapörköl a piacnak a Kaby Lake-G platform

A nyolcadik generációs Core processzorok a Radeon RX Vega M pGPU-val párban is megmutatják mire képesek.

Az egyedi Vega pGPU

Az Intel még november elején jelentette be AMD-vel közösen készített csodafegyverét, amely a Kaby Lake-G kódnévre hallgat. Lényegében egy olyan megoldásról van szó, ami a processzorral egy tokozásra helyez egy grafikus vezérlőt. A vállalat ezt package GPU-nak, röviden pGPU nevezi. Ehhez hasonló volt a Clarkdale kódnevű fejlesztés, de a Kaby Lake-G több szempontból is komoly előrelépés, ugyanis számos olyan technológiát bevet, ami kiemeli a tömegből.

A fejlesztés alapja az EMIB (Embedded Multi-Die Interconnect Bridge), amely a tokozáson belül, nagy teljesítményű kapcsolattal köti össze a pGPU-t és a HBM2 szabványú memóriát. Maga a grafikus vezérlő x8 kapcsolatú PCI Express 3.0-s interfészen kommunikál a Kaby Lake-H processzorral, amelyet már láthattunk a nyolcadik generációs mobil Core termékeknél. Ennek négy darab processzormagja van, míg integrált, HD Graphics 630-as grafikus vezérlője 24 darab feldolgozót használ.

A Kaby Lake-G valódi különlegessége tehát lényegében a pGPU, amelyet az AMD szállít. Ezt az Intel egyedi megrendelésére tervezték meg, vagyis az a Semi-Custom divízió felelt érte, amelynek a Microsoft Xbox One és a Sony PlayStation 4 termékcsalád is köszönhető. Ilyen formában tehát gyakorlatilag az Intel adta meg, hogy mire van szüksége, az AMD pedig ezek alapján megtervezte a végeredményben születő, igen érdekes lapkát. Arról nem esett szó, hogy ezt az egyedi pGPU-t ki gyártja, de az biztos, hogy nem az Intel, ugyanis az AMD Semi-Custom divíziója egyedi eszközöket használ a dizájn automatizált tervezésére, amit rendkívül sok idő lenne az Intel gyártástechnológiájára portolni. Emiatt vagy a TSMC, vagy a GlobalFoundries lett a kiválasztott.

A pGPU a Vega architektúrára épül, ám az nem tisztázott, hogy pontosan ugyanarról az alapról van-e szó, mint amivel például a Vega 10 kódnevű GPU-ban is találkozhatunk. Ez azért kérdéses, mert a Semi-Custom divízió viszonylag lassan kapja meg a felhasználható IP-ket, azaz szellemi tulajdonokat, és az Intel se nagyon emlegette előadásán azokat a képességeket, amelyeket az AMD reklámozott a Vega 10 bemutatójakor. Ez persze önmagában nem jelent semmit, elvégre lehet, hogy az újítások elérhetők, de arra is fel kell készülni, hogy nem. Ez nagyrészt a szoftveren is múlik, ugyanis az Intelnek bizonyos AMD szoftvertechnológiákért licencet kell fizetni, tehát lehet, hogy a hardver tudja, de az egyes újítások megléte végeredményben üzleti kérdéssé minősül. Az Intel az aszinkron compute támogatásának szentelt nagyobb figyelmet, illetve kihangsúlyozták, hogy az egyedi pGPU-juk kompatibilis lesz az AMD által delegált GPUOpen kezdeményezés Shader Intrinsic Functions gyűjtőnéven emlegetett shader kiterjesztéseivel. Utóbbi két funkció megléte tehát hivatalosan is megerősítést nyert, bár leginkább azon lepődtünk volna meg, ha hiányoznának.


[+]

Az egyedi hardverre rátérve, az AMD olyan pGPU-t tervezett, amiben 24 darab úgynevezett NCU (Next-Gen Compute Unit) található, melyek egyenként tartalmaznak egy skalár feldolgozót, illetve négy darab, egymástól független, 16 utas, azaz 512 bites, multiprecíziós SIMD motort. Egy NCU-n belül 64 kB-nyi Local Data Share (LDS) található, melyen a négy darab, 64 kB-os regiszterterülettel rendelkező SIMD motor osztozik. A helyi adatmegosztás mellett természetesen egy 16 kB-os adat gyorsítótár is elérhető, melyet az NCU írhat és olvashat is. A skalár feldolgozó kakukktojás lett az NCU-n belül: ez lényegében egy integer ALU, mely 4 kB-os dedikált regiszterterületet kapott. A textúrázást NCU-nként egy blokk oldja meg, mely négy darab, csak szűrt mintákkal visszatérő Gather4-kompatibilis textúrázó csatornát rejt. A lapkán belül három NCU rendeződik egy tömbbe, ehhez tartozik egy 16 kB-os skalár és egy 32 kB-os utasítás gyorsítótár. Előbbit csak a skalár feldolgozó éri el, míg utóbbit az NCU összes feldolgozója hasznosíthatja, és természetesen mindkét gyorsítótár írható és olvasható is.

Bizonyos paramétereket az Intel nem erősített meg hivatalosan, de mivel a shader fordítót az AMD szállítja, nagy biztonsággal kijelenthető, hogy a belső struktúra megegyezik a nem Intelnek tervezett Radeonokkal. Ennek igen prózai oka van: ha nem így lenne, akkor az befolyásolná az erőforrások allokációját, vagyis a fordítóba épített optimalizálások nem sokat érnének, ami negatívan hatna a teljesítményre. Emiatt a multiprocesszorok kialakítása és szervezése szempontjából kiemelten ajánlott arra a dizájnra építeni, amelyhez a shader fordító is készül.

A shader tömbök szempontjából viszont viszonylag szabad keze volt az Intel mérnökeinek, így leadhattak egészen extrém megrendelést is. Ilyen szempontból az egyedi Radeon pGPU különlegessége a négy darab geometriai motor, aminek nyilván része egy-egy darab tesszellátor is. Ezek a motorok működtetik a shader tömböket, amelyekbe egyenként 6 darab NCU került. Ez nem számít különlegességnek, viszont egy shader tömbön belül egy olyan ROP blokk található, amely négy pixelmotort tartalmaz, és egy pixelmotor 4 blending, illetve 16 Z mintavételező egységből áll. Ez összesen 64 blending és 256 Z mintavételezőt jelent a teljes lapkára nézve, ami a célpiacot figyelembe véve igencsak combos konfiguráció. Itt valószínűleg az Intel egy kényszerű döntést hozott, ugyanis pGPU-juk tervezésekor az AMD minden bizonnyal még nem tervezett kisebb tömböket kínáló új generációs ROP blokkot. Az egységek összeválogatásakor tehát ebből a szempontból nem is volt választás, a régi blokkokat ugyanis már nem tudták használni, mert azok nem kompatibilisek a Vega dizájnjával, hiszen ennél az architektúránál a ROP blokkok a másodlagos gyorsítótár kliensei lettek, aminek az a nagy előnye, hogy a pixel- és textúraadatokra vonatkozó memóriaelérések koherenssé válnak. Persze a pixelmotorokat le lehet tiltani, de ettől fizikailag ugyanúgy be kell építeni őket, az áttervezés pedig valószínűleg túl sok időt vett volna igénybe. A fenti kiépítéssel egyébként nem járt rosszul az Intel, mert ugyan nagyobb lapkaméretet eredményez, de végeredményben sebességet is nyernek vele.

Sajnos arról még nincs adat, hogy a Delta Color Compression technika része-e a rendszernek, hardveresen valószínűleg az, a szoftveres része pedig – ahogy fentebb említettük – üzleti kérdés. Hasonlóan nincs információ a HBCC elérhetőségéről sem, a memóriavezérlő viszont biztosan 1024 bites, és egy darab HBM2 szabványú memóriacsomag kapcsolódik hozzá. Ez konkrétan 4 GB-nyi fedélzeti tárat kínál.

A cikk még nem ért véget, kérlek, lapozz!

Azóta történt

Előzmények

Hirdetés