Bemutatkozott az AMD Carrizo APU

Az Excavator modul

Az AMD a Computex alkalmával hivatalosan is leleplezte a Carrizo SoC APU-t, amelyről a vállalat a korábbi ISSCC alkalmával meglehetősen sokat beszélt, de így is maradt számos olyan dolog, ami végül váratlannak mondható. Azt hittük, hogy ez a termék kínálja majd a legkevesebb meglepetést, hiszen annyira sok adatot tudhattunk róla, de végül tévedtünk. Persze ne rohanjunk ennyire előre, érdemes szép sorban kezdeni az elemzést.

A Carrizo SoC APU
A Carrizo SoC APU

A Carrizo a GlobalFoundries 28 nm-es SHP gyártástechnológiáján készül, és 3,1 milliárd tranzisztort tartalmaz. A tranzisztorszám 700 millióval több a Kaveri APU-hoz képest, viszont a lapkaméret maradt közel ugyanakkora, egészen pontosan 244 mm². Az AMD ezt úgy érte el, hogy sokkal sűrűbben helyezték el a tranzisztorokat, mint korábban, és ennek az alapjait a fenti írás részletesebben is taglalja.

Az egyik fő újdonság természetesen az Excavator modul, amely a Steamroller modult váltja, és komoly fejlesztése az alaparchitektúrának. Az alapvető dizájn megmarad, vagyis a moduláris felépítés nem változik. Viszont a modulonkénti egy utasításbetöltő kiegészül még eggyel, így logikai szinten lényegében már csak a Flex FP lebegőpontos egység tekinthető megosztottnak, és az sem mindig, hiszen az esetek többségében különálló egységként üzemel.


[+]

A Flex FP egyébként kiegészült némi újítással a Steamroller modulhoz képest, így már támogatja az AVX2-t is, viszont a feldolgozók tekintetében marad a két darab 128 bites FMAC és az egy darab MMX egység. Ha már az utasításokról van szó, akkor további extra az MOVBE, a SMEP és a BMI1/2 bevezetése is.


[+]

A modulokon belül további változás, hogy az L1 adat gyorsítótár megduplázódott, így integer magonként 32-32 kB áll rendelkezésre a korábbi 16-16 kB helyett, viszont ezt úgy sikerült elérni, hogy a késleltetése nem változott. Az elágazásbecslés is javult, hiszen az erre vonatkozó puffer 50%-kal nagyobb lett, így most már 768 bejegyzést tárol. A modulhoz tartozó L2 gyorsítótár mérete azonban 2 MB-ról 1 MB-ra csökkent, de az AMD szerint ez nem jelent problémát, mivel összességében nagyobb szükség volt az alacsonyabb késleltetésre, mint a nagyobb gyorsítótárra.


[+]

Az AMD mérései szerint az Excavator modul IPC-je, azaz az egy órajel alatt elvégzett munka a korábbi dizájnhoz viszonyítva 4-15%-kal nőtt. A Carrizo SoC APU-ban egyébként két darab Excavator modul található, ami hagyományos értelemben négy magnak felel meg. Az Excavator legfontosabb fejlesztése láthatóan az energiahatékonyság növelése volt, vagyis a fogyasztáscsökkentés lényeges tempóveszteség nélkül. Maga a dizájn a teljes lapkára vetítve 15 wattos TDP osztályra lett optimalizálva, így itt éri el a legjobb hatékonyságot a rendszer. A Kaveri APU-hoz viszonyítva itt összességében 55%-kal gyorsabb a Carrizo SoC APU processzora.


[+]

Bár szorosan nem tartozik magához a processzorrészhez, de megemlítendő, hogy a Carrizo SoC APU megkapta a PSP-t, ami a Platform Security Processor rövidítése. Ez főleg egy ARM Cortex-A5-os segédmag a korábban licencelt ARM TrustZone technológia működtetésére, de a csomag része még egy dedikált egység is a kriptográfiai feladatok gyorsítására. Az újítás alapvető előnye, hogy az üzleti gépek mostantól mellőzhetik a dedikált TPM 2.0-s chipet, hiszen ennek a feladatát teljes mértékben ellátja a beépített PSP.

A Tonga cGPU öröksége

A Carrizo SoC APU processzorrésze mellé egy igen vaskos IGP került. Wani kódnéven fut, és a legmodernebb, harmadik generációs GCN architektúrára épül, ami a Tonga kódnevű cGPU-ban is megtalálható.

Az IGP-ben nyolc darab CU lesz, és ezek egyenként tartalmaznak egy skalár feldolgozót, illetve négy darab, egymástól teljesen független, 16 utas, azaz 512 bites, multiprecíziós SIMD motort. Egy CU-n belül 64 kB-os Local Data Share (LDS) található, melyen a négy darab, egyenként 64 kB-os regiszterterülettel rendelkező SIMD motor osztozik. Az LDS-sel az AMD – szokásához híven – túlteljesíti a DirectCompute 32 kB-os követelményét, aminek az a magyarázata, hogy az architektúrát általános számításokra tervezték. Az LDS mellett egy 16 kB-os adat gyorsítótár is elérhető, melyet a CU írhat és olvashat is.


[+]

A fentebb már említett skalár feldolgozó némileg különc a CU-n belül. Ez lényegében egy integer ALU, mely 8 kB-os dedikált regiszterterületet kapott. A textúrázást CU-nként egy blokk oldja meg, mely négy darab, csak szűrt mintákkal visszatérő Gather4-kompatibilis textúrázó csatornát rejt. A lapkán belül négy CU egy tömbbe rendeződik, és ehhez tartozik egy 16 kB-os skalár és egy 32 kB-os utasítás gyorsítótár. Előbbit csak a skalár feldolgozó éri el, míg a CU összes feldolgozója hasznosíthatja, de természetesen mindkét gyorsítótár írható és olvasható is. Ezek mellett a CU-k közötti adatmegosztást egy rendkívül gyors, 64 kB-os (Global Data Share) tárterület biztosítja. A CU-k extrája a Tonga cGPU-hoz képest, hogy a Carrizo SoC APU esetében nincs letiltva az ATC, vagyis az Address Translation Cache, amely a megosztott virtuális memória kezelésében fontos, és javítja a címfordítás teljesítményét. Erre nyilván egy dedikált GPU-nak nincs szüksége, de egy IGP-nek igen.


[+]

A két DMA motorral rendelkező IGP az órajelenként egy háromszöggel dolgozó setup motort is a legújabb GCN-es cGPU-tól örökölte, annak minden előnyével együtt. A tesszellátor tizenegyedik generációs megoldás lesz, míg a raszter motor órajelenként 8 képpontot dolgoz fel. A memóriavezérlőhöz egy 512 kB-os kapacitású, írható és olvasható másodlagos gyorsítótár és két ROP-blokk kapcsolódik, ami így összesen 8 blending és 32 Z mintavételező egységet eredményez.

A dupla pontossággal kapcsolatban az AMD elárulta, hogy a hardver képes az elméleti számítási teljesítmény felével elvégezni a feladatokat, vagyis ebből a szempontból teljes értékű megoldásnak számít, de arról még nem döntöttek, hogy ezt a mobil termékek esetében lekorlátozzák-e szoftveresen vagy sem. Viszont biztos, hogy a Carrizo SoC APU IGP-je teljes értékű feldolgozás mellett támogatja a 16 bites lebegőpontos utasításokat, ami lényeges szempont, hiszen számos feladat nem igényel 32 bites precizitást, így energiát lehet spórolni, miközben gyorsul is a hardver.

Összesítve a Carrizo IGP-je 512 darab shader részelemet kínál 32 darab textúrázó csatorna mellett, és mindehhez 8 blending egység társul. Az új integrált grafikus vezérlő, amely egyébként egy nagy shader motornak tekinthető, a Kaveri megoldásához hasonlóan leginkább az újabb, komplex játékokban érzi nagyon jól magát, hiszen igen jó a compute hatékonysága.

A Wani IGP extrái

Az előbbi oldalon azonban számos lényeges változást nem említettünk. Az egyik legfontosabb, hogy a Wani kódnevű IGP megkapja a Tonga cGPU-ban bemutatott Delta Color Compression technikát, ami részben egy energiatakarékossági és memóriakímélő funkció. Segítségével a Carrizo SoC APU kevésbé érzi a memória-sávszélesség korlátozó hatását, hiszen a különböző pufferekbe kiírt színadatok tömörítve tárolhatók. Ez önmagában egy veszteségmentes tömörítés, amely abban is segít, hogy az IGP a korábbinál sokkal jobban megközelítse az elméleti pixelkitöltési sebességét, amelyre a hatékony tömörítési technikákat nem alkalmazó grafikus vezérlők nem képesek. Ez az AMD szerint a komplex játékokban is nagyjából 5-7%-os előnyt kovácsol a Carrizo SoC APU-nak.

A másik nem taglalt érdekesség az ACE-ekhez kötődik. Természetesen most is a rendszer része nyolc darab ACE (Asynchronous Compute Engine) egység, ami a parancsprocesszorhoz szorosan kapcsolódik és dönt az erőforrás allokációjával, a kontextusváltással és a feladat prioritásával kapcsolatban. Természetesen az ACE out of order logikát alkalmaz az erőforrások mielőbbi felszabadítása érdekében, de maguk a CU-k továbbra is in order elven működnek, vagyis az utasításfolyamokat a beérkezés sorrendjében hajtják végre, de alapvetően az ACE eteti a CU-kat, így képes meghatározni a feldolgozás sorrendjét.

Ez az ACE azonban már nem az az ACE, amit a Kaveri IGP-je tartalmazott, hanem természetesen a Tongából megörökölt verzió. Ennek a különlegességét most az AMD el is árulta, hiszen támogatja a HSA QoS-t. Ezt kiegészíti még a HSA GPU grafika preempció is. Ebből már sejthető, hogy míg a Kaveri APU csak nyolcból hat HSA direktívát támogatott, addig a Carrizo SoC APU már támogatja mind a nyolcat.


[+]

A QoS és az AMD által mid-wave preempciónak nevezett szolgáltatás alapvetően összeköthető. Utóbbi arra szolgál, hogy a grafikus vezérlő képes legyen rendkívül gyors kontextusváltásra. A mai dizájnok egyik nagy problémája, hogy ha egy feladatot elkezdett a multiprocesszor, akkor az nem állhat le, tehát még ha a feladatokat priorizálja is a rendszer, akkor sem tökéletes az eredmény. Ennek jelentőségét ma nem érezzük, mert jellemzően egyszerre csak egyetlen, grafikus vezérlőt használó alkalmazás fut csak, de a Windows 10 új lehetőségeivel ez gyorsan megváltozik, így egyszerre több alkalmazás fogja ostromolni a grafikus vezérlőt.

A gondot itt az jelenti, hogy ezek nem processzorok, vagyis nagyon nehéz az azonnali választ igénylő alkalmazásokat előtérbe helyezni a többi alkalmazással szemben, emellett a grafikus vezérlők hatékonysága több program futtatása esetén drasztikusan romlik. Ez elméleti szinten úgy értelmezhető a legegyszerűbben, hogy processzoron relatíve egyszerű két egyébként azonos erőforrás-igényű alkalmazást futtatni; a processzor teljesítménye az egy alkalmazás sebességéhez viszonyítva annyiban módosul, hogy a két alkalmazás nagyjából fele olyan gyorsan fut. A grafikus vezérlők esetében ez nem igaz, és két alkalmazás párhuzamos futtatása már nem felezi a sebességet, hanem töredékére csökkenti.

Ennek a problémának a kezelésére szolgál a mid-wave preempció és a gyors kontextusváltás, amely képes az adott feladatokat menet közben megállítani, és a felszabaduló erőforrás helyére egy új, magasabb priorítású feladatot beilleszteni. Amint ez végzett, a korábban elmentett feladat ott folytatható, ahol a rendszer azt félbehagyta. Ezzel elérhető, hogy számos alkalmazás fusson párhuzamosan a grafikus vezérlőn, ráadásul rendkívül hatékonyan. Azt is tudni fogja a hardver, hogy a legfontosabb a grafikus feladatokat előnyben részesítése, mert például egy játék futtatásánál senki sem örülne annak, ha másodpercekig nem érkezne új képkocka csak azért, mert a grafikus vezérlőt éppen más programok sajátítják ki.

A QoS már egy erre épülő újítás, amely azt teszi lehetővé, hogy a grafikus vezérlő ne csak hatékony multitaszk rendszer legyen, hanem több, operációs rendszerbe bejelentkezett felhasználót is ki tudjon szolgálni egyszerre. Az egyik felhasználó játszhat a tévén, míg a másik GPGPU-s képszerkesztővel dolgozhat a notebook kijelzőjén és a hardver pontosan tudja, hogy a játékhoz kapcsolódó feladatokat kell előnyben részesítenie, így a játékélményt nem teszi tönkre egy párhuzamosan futtatott GPGPU-s program.


[+]

A CPU és az IGP összedolgozásával egyébként nagyon sokat lehet nyerni. A Carrizo SoC APU esetében az Adobe Premiere CC, az Adobe Photoshop CC, illetve a LibreOffice Calc rendre akár 6,5x, 17x, illetve 7x lehet gyorsabb a szimplán CPU-s feldolgozáshoz viszonyítva.

Multimédiás újítások

A Carrizo SoC APU legfontosabb újításait multimédiás területen kell keresni. Egyrészt megújult a TrueAudio blokk, amely már a Kaveri APU-nak is része volt. Persze itt funkcionális extrák nincsenek, de a fogyasztását sikerült mérsékelni, ami egy mobil lapka esetében fontos.

Ennél nagyobb újítást kapott azonban az UVD és a VCE. A VCE a 3.1-es verzió felújítása, tehát funkcionalitás tekintetében megegyezik a Tonga cGPU egységével, de sebességben már kétszer olyan gyors, mivel az AMD megduplázta a DSP, azaz a digitális jelfeldolgozó processzorok számát. Ezzel a Kaveri VCE egységénél a Carrizo SoC APU megoldása 24x gyorsabb lett, így meglepetősen tempósan képes majd kódolni a H.264-es videókat. És teszi ezt úgy, hogy az elődhöz képest a fogyasztása csökkent.


A Carrizo SoC APU UVD blokkjának képessége

Az UVD szintén egy felújítása a Tonga cGPU-ban található 6-os verziónak. Itt jönnek az igazi érdekességek, ugyanis a hardver már képes a HEVC formátumú 4K-s, 60 képkocka/másodperces videók dekódolására is, tehát ez már nem csak a H.264-gyel lehetséges. Ennél azonban több is történt. A HEVC fixfunkciós dekódolása sok esetében problémás terület, mivel erre nagyon jó GPGPU-s algoritmusok vannak, amelyekhez képest a fixfunkciós blokkok nem fogyasztanak sokkal kevesebbet. Ezt többen is elismerték már az iparágon belül, tehát nehéz jó megoldást találni. A fő probléma, hogy maga az egység beépíthető, főleg a Carrizo SoC APU kiterjedésével, hiszen bőven van rá tranzisztorkeret, de ettől a fogyasztás a HEVC-s dekódolás mellett nem lesz lényegesen jobb, mintha a GPGPU dolgozna a problémán.


[+]

Az AMD emiatt egy új megközelítéssel élt a fixfunkciós dekódolók területén. Ezeket a DSP-kből álló blokkokat ma jellemzően úgy paraméterezik a mérnökök, hogy a lehető legalacsonyabb órajelen üzemeljenek, így a legkevesebbet fogyasszák a munkájuk során, miközben a céljukat teljesítik.

Az AMD a Carrizo esetében úgy döntött, hogy megnégyszerezi a dekódolás sebességét, ami ugyan nagy fogyasztással jár, de ezt kiegészítheti megújult energiatakarékosság. A Wani IGP egyes részei egymástól függetlenül is lekapcsolhatók, így amíg az UVD dolgozik, addig a CU-knak nem szükséges működniük, illetve maga az UVD is lekapcsolható úgy, hogy a kijelzőmotor még működjön, sőt a memóriát is alacsony fogyasztású módba lehet kapcsolni.

HEVC gyorsításának szükségessége a Windows 10-ben
HEVC gyorsításának szükségessége a Windows 10-ben [+]

Az ötlet itt az, hogy számoljon a hardver gyorsan, magas fogyasztással, hogy aztán minél hamarabb bekapcsolhasson a teljes energiatakarékosság. Ez gyökeresen eltérő koncepció a ma jellemzően elterjedt modellekhez képest, de működik. A videofeldolgozásnál a képkocka dekódolására 33 ezredmásodperc áll rendelkezésre. Ezt a Kaveri APU teljesen kihasználja, de a Carrizo SoC APU a rendelkezésre álló időkeret negyede alatt végez és kapcsol is rögtön energiatakarékos üzemmódba. A periodikus nagy fogyasztással, majd a gyors spórolással összesítve sokkal többet nyer a rendszer, így a Carrizo SoC APU, mindemellett a videókra vonatkozó utófeldolgozás is egy különálló hardverblokkot kapott, így a grafikus vezérlő tényleg lekapcsolhat videolejátszás mellett.

Az üzemidő javulása a H.264-es formátumú videókkal
Az üzemidő javulása a H.264-es formátumú videókkal [+]

Ezekkel a változásokkal egy ugyanolyan környezetben, 50 Wh-s akkumulátor mellett a Carrizo SoC APU a Full HD-s filmlejátszás során 8,3 óráig is bírja, miközben a Kaveri ezt a terhelést csak 3,3 óráig bírta. A Full HD-s HEVC szempontjából is elég jó a helyzet. Több mint 300 percnyi üzemidő áll rendelkezésre, miközben a jelenleg kapható, 50 Wh-s akkuval szerelt, normál notebookok jobbára két óráig sem bírják a strapát, és rossz is a lejátszás minősége.

A szoftverek és a termékek

Az AMD továbbra is kínál majd saját szoftvereket a notebookokhoz. Többek között megújul a Richland APU mellett bemutatott mozgásfelismerő szoftver, ami mostantól nagyságrendekkel hatékonyabban működik a HSA-t támogató, GCN architektúrájú IGP-kkel, így például a Carrizo SoC APU-val is. Az AMD itt egyértelműen az Intel RealSense technológiájára támad, de teszik ezt speciális kamerára vonatkozó igény nélkül. A notebookgyártóknak elég a szokásos 720p-s kamerákat szállítani, ugyanis az AMD mozgásfelismerő megoldása ezekkel is tökéletesen működik. Nem szükséges mélységérzékelés sem, az ehhez szükséges adatokat az integrált grafikus vezérlő az előző képkockák alapján állítja elő.

A Carrizo SoC APU mozgásfelismerése
A Carrizo SoC APU mozgásfelismerése [+]

Mindezek mellett a RealSense koncepciójával ellentétben az AMD megoldása bármilyen, teljesen általános programmal is működik, de persze direkten is támogatható.

A másik szoftver a Looking Glass névre hallgat, és lényegében a korábban már prezentált Content Manager kódnevű projekt végleges verziója. A segítségével arcokra kereshetünk rá a merevlemezen tárolt videókban, ha esetleg nem tudnánk azt, hogy a látni kívánt személyt melyik fájl tárolja. Természetesen ez a program is a HSA platformon keresztül működik. Maga a Looking Glass egyébként jelenleg egy egyedülálló szoftver, ugyanis a végfelhasználóknak ma senki sem kínál hasonló alkalmazást.


Looking Glass

A Carrizo SoC APU esetében a konkrét modellek tekintetében is átdolgozza a termékskálát az AMD. A vállalat mindössze három APU-t kínál a partnereknek, de azok paraméterezhetők. Az APU-k képességeit az alábbi táblázat részletezi:

AMD Carrizo – mobil generáció
Típus Órajel / Turbó órajel L2 cache Radeon típusa Radeon magok száma IGP PowerTune órajel Fogyasztás (cTDP)
FX-8800P (4 mag) 2,1/3,4 GHz 2 x 1 MB R7 512 800 MHz 12-35 W
A10-8700P (4 mag) 1,8/3,2 GHz 2 x 1 MB R6 384 800 MHz 12-35 W
A8-8600P (4 mag) 1,6/3 GHz 2 x 1 MB R6 384 720 MHz 12-35 W

Az APU-k különlegessége a fogyasztás: a TDP-keret lehet 12, 15, 25 vagy 35 watt. Az AMD nem kínál külön megoldásokat, így a partnerekre bízza, hogy mit választanak. A kiválasztott TDP-keretet a partnereknek jeleznie kell, de érdekesség, hogy a gyártók kiválaszthatóvá tehetik a BIOS-ban az adott keretnél alacsonyabb szinteket. Ezzel elérhető, hogy ha a felhasználó egy 35 wattos keretre szabott notebookot vásárol, de valójában nem szeretné, ha ennyit fogyasztana, mert esetleg jóval több üzemidőre van szüksége, akkor a BIOS-ban kiválaszthatja a 12 wattos keretet, és egy újraindítás után meg is van a keveset fogyasztó notebook.


[+]

Az órajel-specifikációk a különböző TDP-keretek mellett nem változnak, a hardver turbója technikailag állandó jellegű. A TDP-keret nagysága csak azt határozza meg, hogy hány percig képes tartani a maximális órajelet a rendszer, és mikor kell visszafognia magát. Ebből a szempontból előfordulhat, hogy még a legkisebb keret mellett is mind a négy processzormag és az IGP is maximális órajelre kapcsol egy program indításakor, majd idővel ez visszaesik. Ez a koncepció nem újdonság az iparágban, de ennyire agresszív jelleggel még senki sem alkalmazta.


[+]

A Carrizo APU-ra az Acer, az ASUS, a HP, a Lenovo és a Toshiba mutat majd be notebookokat a Computexen. Maga a platform a 400 és a 700 dollár közötti árszintet célozza meg. Mindemellett az AMD elmondta, hogy lesz FreeSync technológiát támogató notebook is, illetve minden gyártó részt vehet egy játékokat kínáló promócióban. Az A8-as APU-hoz fixen egy ingyenes LEGO Batman 3: Beyond Gotham jár, míg az A10-es és az FX-es APU-hoz választható a már említett játék vagy a DiRT Rally.

Abu85

  • Kapcsolódó cégek:
  • AMD

Azóta történt

Előzmények

Hirdetés