Teljes mobil letámadás az AMD-től

A GCN architektúra jelenti a fűszert?

A Jaguar mag alapvetően jól sikerült. Többet is kínál annál, ami manapság várható, hiszen elhozza az AVX előnyeit mobil eszközökbe is, mely talán nem a legfőbb igény, de komoly előny lehet azoknál a programoknál, amelyek kihasználják ezt az utasításkészletet. A Kabini és a Temash memóriavezérlője a kötelezőt hozza, így maradt a 64 bites csatorna, amihez DDR3L szabványú memória társítható. Az effektív órajel maximum 1600 MHz lehet, de a fogyasztás csökkentése érdekében az alacsonyabb energiaigényű rendszerchipekhez kisebb órajelet ajánl a cég. Ez termékenként változni fog persze, de főleg az adott masina dizájnja dönti el, hogy mekkora sebesség vethető be. A gyártónak persze törekednie kell a minél magasabb órajel használatára. A lapkában található még PCI Express vezérlő is, mely nyolc darab 2.0-s szabványú csatornát kínál.

Hirdetés

A Kabini és a Temash legérdekesebb része az integrált grafikus vezérlő. Ezt titkolta a legjobban az AMD, és volt is okuk rá, mivel ekkora grafikus teljesítményt és tudást nem hogy senki sem préselt be eddig egy rendszerchipbe, de még a közelében sem járnak az aktuális ultramobil IGP-k. Az alapvető erőt a GCN architektúra adja, amit ilyen kis lapkában most látunk először. Brutális hardverre persze nem kell számítani, de a kategórián belül igen komoly kis szerkezetről van szó.

Az IGP a memóriavezérlőt az GMB-n (Graphics Memory Bus) keresztül éri el, mely 256 bites szélességet biztosít egy-egy irányba. Az IGP és a processzormodul összeköttetéséért a Fusion Control Link felel, mely egy-egy irányba 128 bites szélességet jelent. Az integrált grafikus vezérlő ezzel eléri a processzormodulokhoz kapcsolódó L2 gyorsítótárat is, így gyors kommunikáció valósítható meg a CPU és az IGP között. A Fusion Control Link arra is alkalmas, hogy az IGP elérje a processzor memóriáját, míg ezt a CPU is képes megtenni az IGP által lefoglalt területtel.

Az IGP felépítese
Az IGP felépítese [+]

Az IGP-ben két darab CU lesz, és ezek egyenként tartalmaznak egy skalár feldolgozót, illetve négy darab, egymástól teljesen független, 16 utas, azaz 512 bites, multiprecíziós SIMD motort. Egy CU-n belül 64 kB-os Local Data Share (LDS) található, melyen a négy darab, egyenként 64 kB-os regiszterterülettel rendelkező SIMD motor osztozik. Az LDS-sel az AMD – szokásához híven – túlteljesíti a DirectCompute 32 kB-os követelményét, aminek az a magyarázata, hogy az architektúrát az általános számításokra tervezték. Az LDS mellett egy 16 kB-os adat gyorsítótár is elérhető, melyet a CU írhat és olvashat is.

A GCN CU felépítese
A GCN CU felépítese [+]

A fentebb már említett skalárfeldolgozó némileg különc a CU-n belül. Ez lényegében egy integer ALU, mely 4 kB-os dedikált regiszterterületet kapott. A textúrázást CU-nként egy blokk oldja meg, mely négy darab, csak szűrt mintákkal visszatérő Gather4-kompatibilis textúrázó csatornát rejt. A lapkán belül a két CU egy tömbbe rendeződik, és ehhez tartozik egy 16 kB-os skalár és egy 32 kB-os utasítás gyorsítótár. Előbbit csak a skalárfeldolgozó éri el, és csak olvasható tárról van szó, ám utóbbi írható is, és a CU összes feldolgozója hasznosíthatja. Mindemellett a CU-k közötti adatmegosztást egy rendkívül gyors, 4 kB-os (Global Data Share) tárterület biztosítja.

Szintén a rendszer része négy darab ACE (Asynchronous Compute Engine) egység, ami a parancsprocesszorhoz szorosan kapcsolódik és dönt az erőforrás allokációjával, a kontextusváltással és a feladat prioritásával kapcsolatban. Természetesen az ACE out of order logikát alkalmaz az erőforrások mielőbbi felszabadítása érdekében, de maguk a CU-k továbbra is in order elven működnek, vagyis az utasításfolyamokat a beérkezés sorrendjében hajtják végre, de alapvetően az ACE eteti a CU-kat, így képes meghatározni a feldolgozás sorrendjét. Érdekes, hogy az AMD négy ACE beépítése mellett döntött. Ennyit még a Radeon VGA-kra szánt grafikus processzorok sem kaptak, de az alapkoncepció érthető, hiszen minél több ACE kerül a rendszerbe, annál hatékonyabb a CU-k etetése. Mivel az általános számításra kihegyezett feladatok nem hasonlítanak a grafikai munkához, alapvető fontosságú, hogy ezek hatékonyan legyenek végrehajtva.

Az IGP a setup motort is többi GCN-es GPU-tól örökölte, annak minden előnyével együtt. A tesszellátor az AMD Gen9-as megoldása lesz, míg a raszter motor órajelenként 8 képpontot dolgoz fel. A rendszerchipek között azonban az igazán értékes újítás a tile-based load balancing, ami a hierarchikus Z algoritmus túlterhelését akadályozza meg. A rendszer a raszterizálást hierarchikus Z nélkül hajtja végre a teljes képkockát több egyenlő méretű, viszonylag kicsi mozaikra osztva. Természetesen itt számos szabályt be kell tartani, biztosítva a renderelés sorrendjét. A hierarchikus Z algoritmus a mozaikokon lesz lefuttatva, amelyeket tovább lehet küldeni, vagy éppen el lehet dobni, ha nem tartalmaznak látható információt. Ez az elgondolás tesszellálásnál rendkívül hasznos, mivel a hierarchikus Z motor könnyen túlterhelhető, ami esetenként elég sok problémát jelenthet.

A memóriavezérlőhöz egy 128 kB-os kapacitású, írható és olvasható másodlagos gyorsítótár és egy ROP-blokk kapcsolódik. Ez így összesen 4 blending és 16 Z mintavételező egységet eredményez. Itt az új IGP szintén megörökölte a GCN-es hardverek újításait, vagyis a blokk jelentős fejlődésen ment keresztül, így a Brazos platform IGP-jéhez képest kétszer gyorsabban végzik a 16 bites unorm és snorm operációkat, valamint a 32 bites lebegőpontos utasítások feldolgozása akár négyszer gyorsabb is lehet. Némi egyenetlenség azért maradt a rendszerben, mivel fentebb említettük, hogy a raszter motor órajelenként 8 képpontot dolgoz fel, ami sok 4 blending egységhez, de utóbbi inkább legyen túletetve, minthogy adatra várjon.

Az IGP érdekessége, hogy támogatja a dupla pontosságot is. Ez az első SoC a piacon, ami képes erre, de nagy sebességet azért nem érdemes várni, mivel ebben a módban a rendszer teljesítménye az elméleti számítási tempó töredéke. Egészen pontosan egy SIMD motor egy MUL, egy FMA, vagy egy transzcendens utasítást képes elvégezni 16 órajelenként, de örömteli, hogy az ADD utasításokból kettőt is megold órajelenként.

A cikk még nem ért véget, kérlek, lapozz!

  • Kapcsolódó cégek:
  • AMD

Azóta történt

Előzmények

Hirdetés