AMD Kaveri: mostanra érett be a vállalat fúziója

2. A párhuzamosítás dilemmái
1. Cellből született irány? 2. A párhuzamosítás dilemmái 3. Az AMD nehézségei 4. A Steamroller modul 5. Az IGP szolgáltatja az igazi erőt 6. Hogy lesz ez integrálva? 7. Multimédiában is szintet lép 8. Dual Graphics és a termékek
Írta: Abu85
2014-01-14 14:00

A párhuzamosítás dilemmái

Amennyire egyetértenek a gyártók a heterogén módon programozható processzorok jövőjében, olyannyira vannak eltérő nézetek a mély integráció kivitelezésével kapcsolatban. A piac szereplői kellő mennyiségű előadást tartottak már ezekről, így nagyjából lehet tudni, hogy mely vállalatok milyen irányt céloznak meg. Bár a fizikai implementációk szinte minden gyártónál eltérnek majd, a logikai működés tekintetében két nagyobb irányzat alakult ki.

Az egyik opció a Cell működését másolja, illetve közben modernizálja. Ide szeretne nevezni az Intel, mely cég koncepciójában a késleltetésre optimalizált főmagok mellett, megegyező utasításarchitektúrára épülő, adatpárhuzamos végrehajtásra tervezett magok kapnak helyet. Ezzel a modellel a meglévő fejlesztőkörnyezetek – némi felújítás mellett – felhasználhatók, viszont szenvedni fog attól a problémától, amitől a Cell: nevezetesen az extrém nehéz programozhatóságtól.

A többi gyártó inkább egy másik irányt választott, hogy az adatpárhuzamos végrehajtásra tervezett magok utasításarchitektúrája és működése jóval kedvezőbb legyen a fejlesztőknek, illetve segítse a hatékony kihasználást. Ehhez új fejlesztőkörnyezetek és új programozási modellek bevezetése is szükséges, viszont az érintett cégek szerint (ARM, AMD, Qualcomm, NVIDIA és még sokan mások) ez könnyebb programozhatóságot biztosít majd.

Minden esetben a párhuzamosítás kivitelezése jelenti a fő problémát, hiszen e rendszereknek ez a kulcsa. Itt rögtön érdemes leszögezni, hogy a lehetőségek szempontjából egyik sem biztos, hogy rossz irány. Jelenleg mindenki a saját kísérleteit próbálja követni, így természetes, hogy a cégek eltérő véleményen vannak. A jobb érthetőség kedvéért elemezzük, hogy mégis miből lehet választani. Ma leginkább három nagy csoportba sorolható be a párhuzamosítás kivitelezése: SIMD, SMT és SIMT.

Az SMT (Simultaneous Multi-Threading) az egyik legegyszerűbb forma, hiszen tulajdonképpen a mai homogén többmagos processzorok kihasználása ide sorolható. Lényegében a programozó számos programszálat futtat párhuzamosan, és ügyel ezek szinkronizálására. Ez kínálja a program oldaláról a legtöbb flexibilitást, ugyanakkor a hatékonyság szempontjából ez a legrosszabb.

A SIMD (Single Instruction Multiple Data) funkcionálisan igen különböző, mert ennél lényegében valamilyen hosszúságú vektorműveletek párhuzamos futtatása zajlik. Minél hosszabb vektorokra van szükség, annál nehézkesebb optimalizálni rá, hiszen a fordítóprogram nem biztos, hogy tökéletes vektorokat készít a forráskódból, ilyenkor pedig majdnem assembly, azaz igen alacsony szinten kell manuálisan optimalizálni. Többek között a gyártók egy része ezért nem tartja jó koncepciónak a Cell működésének másolását, mivel úgy gondolják, hogy a fejlesztők valami egyszerűbbre vágynak, mintsem 256, 512 vagy később esetleg 1024 bites vektorokat kézzel írogatni. Ugyanakkor amellett, hogy a SIMD által kínált flexibilitás igen korlátozott, a hatékonyság – megfelelően megírt kód mellett – kiváló lehet, tehát a programozás oldalán keletkező kellemetlenségeket teljesítményével képes ellensúlyozni.

A harmadik lehetőség a SIMT (Single Instruction Multiple Thread), ami a legtöbb gyártó szemében az arany középutat jelenti. Nem kínál olyan flexibilitást, mint az SMT, de nem is olyan rossz, mint a SIMD, ezzel egyetemben teljesítménye sem biztos, hogy olyan jó lesz, mind a SIMD-é, ugyanakkor az SMT-nél hatékonyabb. Ez amolyan tipikus kompromisszumos megoldás, amikor engedünk, hogy valahol nyerhessünk, és az új generációs grafikus fejlesztések már ezt a modellt helyezik előtérbe. Példának felhozható az NVIDIA Fermi és Kepler, illetve az AMD GCN architektúrája.

A SIMT előnye a SIMD-hez viszonyítva leginkább a programkódban észlelhető. A párhuzamosítás koncepciója lehetővé teszi, hogy számos esetben a fejlesztő egy szálra levetített kódot írjon általános aritmetikai operátorokkal, ami sokak számára lényegesen kényelmesebb, mint a SIMD-es vektorokra való optimalizálás. Emellett a címszámításnál jóval kedvezőbb a SIMT modell, mivel működésének természete kompenzálja a magas késleltetést anélkül, hogy rontaná a feldolgozók kihasználását. Ez esetenként olyan kódok párhuzamosítását is lehetővé teszi, ami a hagyományos SIMD modellen nem, vagy csak nagyon nehézkesen oldható meg.

Az előbbiek mellett a SIMD és a SIMT modell lényeges különbsége még, hogy előbbit a függőség, míg utóbbit a kihasználtság limitálja. Ha sok az adott kódban a függőség, akkor egyszerűen nem lehet jól munkára fogni a hardveren belüli vektorfeldolgozókat, mivel a szükséges adat még kiszámításra vár. Ez nyilván csökkenti a hatékonyságot. A hardvernek ilyen problémája nincs a SIMT modell mellett, viszont ahhoz, hogy a temérdek feldolgozót kihasználja a programozó, rengeteg programszálat kell párhuzamosan futtatni. Minél kevesebb a futtatott szál, annál kisebb a hardver kihasználtsága.

Természetesen az SMT esetében is kell számolni limitációkkal, de ez leginkább attól függ, hogy a programozó milyen hatékonyan képes a szálak közötti szinkronizációt biztosítani, illetve figyelembe kell venni, hogy a túl sok szinkronizáció már ronthatja a teljesítményt, így az adott feladatra érdemes csak annyi magot használni, amennyivel még hatékony lehet a feldolgozás.

A cikk még nem ért véget, kérlek, lapozz!

Kapcsolódó cégek:
AMD

Azóta történt

Kaveri APU-hoz készült GAMING alaplapokkal dupláz az MSI

A vállalat két terméket kínál, de lesz egy extra csomag is Assassin’s Creed Liberation HD játékkal.

Hír 2014-01-23 51
AMD Kaveri APU: hozott is, meg nem is

Leteszteltük a papíron megannyi újdonsággal kecsegtető, vadiúj A10-7850K és A8-7600 processzort.

Elemzés 2014-01-31 986
Mindentudó HTPC építhető az MSI A88XI AC alaplapra

Az apró, Mini-ITX szabványú alaplap rengeteg multimédiás képességet kínál.

Hír 2014-02-21 46
Kipróbáltuk: a Thief új generációs hangzásvilága

Az AMD TrueAudio technológiával a konvolúciós reverb már nem csak álom a fejlesztők részéről.

Elemzés 2014-03-18 73

Előzmények

CES 2014: játék és HSA az AMD előadásán

A Kaveri előzetes bemutatóján a HSA, a Mantle és a TrueAudio volt a főszerepben.

Hír 2014-01-07 19
APU13: az AMD felvázolta a Kaveri APU-t

Az érkező hardver mellett az egységes fejlesztőkörnyezetre és az exkluzivitásra helyezi a hangsúlyt a vállalat.

Hír 2013-11-12 321
AMD Richland: APU ráncfelvarrással

Az előző generációs Trinity APU finomításából született, asztali A10-6800K és A10-6700 processzort teszteltük.

Teszt 2013-07-01 208
AMD Trinity megateszt: APU újratöltve

A Bulldozer és Llano közös utódját vizsgáltuk meg az A10-5800K és A8-5600K APU-k személyében.

Elemzés 2012-10-02 1165

Percről percre

Lunar Lander Beyond teszt

gp Nagyon sok évtizeddel az eredeti Lunar Lander megjelenése óta ismét ezen a címen jelent meg Atari logóval egy játék. Vajon mennyit javult a játékdesign a hetvenes évek óta?

Sokat fogyaszt az AI, egyre több az adatközpont, kell az atomenergia

it Az AI-t kiszolgáló adatközpontok olyan nagy energiaigénnyel bírnak, hogy egyre több atomenergiára van szükség.

Letartóztatták a bitcoin-Jézust

it Amerikai adókerülés vádjával, Spanyolországban tartóztatták le a bitcoin-Jézusként ismert Roger Vert.

Állásajánlatok

Diákmunka junior fejlesztő

Cég: Ozeki Kft.

Város: Debrecen

Részletek

Full stack Laravel fejlesztő

Cég: Promenade Publishing House Kft.

Város: Budapest

Részletek

AMD Kaveri: mostanra érett be a vállalat fúziója