Működhet a MIC a grafikai számításoknál?

A korábban leállított Larrabee utódjának számító Intel MIC architektúra sokéves fejlesztés után a HPC szerverek piacán már elérhető. Az aktuális rendszert láthattuk már működni az OpenCL alatt, ami meglehetősen furcsa eredményeket hozott, de a hírek szerint az OpenCL driveren még javít a cég.

Egyelőre érdemes az OpenCL eredményeket félretenni, a Skylake kódnevű fejlesztés érkezésével azonban felmerült az a kérdés, hogy a MIC mennyire alkalmas a grafikai számításokhoz. A 2015-ben érkező új Intel APU integrált grafikus vezérlőjét ugyanis már nem az aktuális csapat dolgozza ki, hanem a MIC architektúra útját delegáló mérnökcsoport, Ofri Wechsler vezetésével. Az említett mérnökről annyit érdemes tudni, kidolgozott egy olyan szoftveres leképzőt a MIC architektúrára, ami képes megoldani a modern játékok futtatását, illetve a Skylake-től kezdve átveszi az irányítást a későbbi, nagyobb teljesítményű Intel APU-k IGP-jének fejlesztése felett, így az aktuális Gen7.5 architektúra ebben az irányban már nem fejlődik tovább.

A Gen7.5 leváltása egyébként teljesen érthető, hiszen a rendszer elérte a skálázhatósága csúcsát. Ez azt jelenti, hogy igen csekély teljesítménynöveléshez is extrém mennyiségű extra tranzisztor beépítése szükséges, ami vállalhatatlan az Intel számára, mivel óriási kiterjedésű chipekhez vezetne. Jó példa, hogy nagyjából azonos TDP osztályba sorolt Haswell APU-k esetében a 40 feldolgozóval rendelkező Intel HD Graphics 5000 mindössze 10-15%-kal gyorsabb a 20 feldolgozót használó HD Graphics 4400-nál a 3DMark tesztprogramokban. Tekintve, hogy a lapkában a feldolgozók számát konkrétan megduplázták a tervezők az IGP-re fordított tranzisztorszám közel 80%-kal nőtt, ami egyszerűen sok a gyakorlatban mérhető teljesítménynövekedéshez képest. Ez magyarázza azt is, hogy az LGA1150-es tokozású termékek között miért nem látunk 40 feldolgozóval rendelkező IGP-t használó Haswell APU-t. Egyszerűen a maximum 20%-nyi extra sebesség nem éri meg az ezzel járó extrém tranzisztortöbbletet.

A MIC architektúrára való váltás kézenfekvő, hiszen dollármilliárdok állnak a fejlesztésben, és a Larrabee projekt leállítása óta eltelt években csak rájöttek a mérnökök, hogy mégis miképp lehet skálázni a rendszer teljesítményét az extra magok beépítésével. A Larrabee gondja ugyanis elsősorban az volt, hogy hiába építettek a lapkába 32 magot, egyszerűen nem volt meg a közel lineáris teljesítményskálázódás. A korábbi pletykák szerint ezzel 10-12 mag használatáig nem volt probléma, de utána mintha elvágták volna a rendszer működését, és az extra magok beépítése alig hozott extra sebességet. A közhiedelemmel ellentétben ez nem egyedi probléma. Amelyik cég foglalkozik skálázható grafikus processzorok tervezésével bizonyos, hogy egyszer-kétszer belefutott ugyanebbe a gondba. Maga a jelenség csupán annyi, hogy a mérnökök a tervezésnél túlbecsülik az adott rendszer skálázhatóságát. Ez egy olyan helyzet, amit nem mindig lehet előre látni, így ennek megértésében csak a tapasztalatszerzés segít.

A MIC elvi szinten alkalmas a grafika számítására, de mindenképp valamilyen TBR (tile-based rendering) elven működő feldolgozást kell alkalmazni, mivel nagyon fontos, hogy az utolsó szintű gyorsítótárak, illetve az ezeket összekötő gyűrűs busz minimális igénybevételnek legyen kitéve. Ez a mai programokban még komoly probléma, de az új játékokban már nem lesz az, mivel Windows 8-hoz készült DirectX API tartalmaz egy speciális funkciót az eltérő elven dolgozó hardverek megfelelő kezelésére. Ezt nagyon egyszerű implementálni bármelyik programba, így a fejlesztőknek nincs értelme kihagyni, főleg abból kiindulva, hogy ma már tudhatják, hogy az Intel milyen hardverrel szeretne előállni nagyjából két év múlva. A TBR alapokra való építkezés lényegében csak akkor jelenthet gondot, ha az adott program annyi háromszöggel dolgozik, amennyi már meghaladja a mozaikokban kötegelhető háromszögek számát. Technikailag a hardver üzemképes marad ekkor is, de kétfázisú feldolgozásra kell áttérni egy mélységpuffer bevetésével, ami nagyságrendekkel csökkenti az elérhető sebességet.

A skálázás szempontjából nem tudni pontosan, hogy az Intel hol tart a Larrabee projekt leállítása óta. Minden bizonnyal történt előrelépés, hiszen ha nem így lenne, akkor nem kockáztatnák meg a Skylake-be való beépítést. Tekintve, hogy IGP-ről lenne szó, így 32 mag bevetésére biztosan nem lesz szükség, vagy inkább lehetőség, hiszen az nem eredményezne vállalható kiterjedésű lapkát. Nagyjából 16 darab MIC mag bevetése viszont reálisan kivitelezhető, hiszen ez az aktuális MIC magok mellett 8 MB-nyi gyorsítótárral járna. A számítási teljesítmény az architektúra jellemzően 1 GHz-es órajelén nagyjából 500 GFLOPS lenne, ami szintén vállalható paraméter.

Az IGP-ben szükség lesz még textúrázókra, hiszen kizárt, hogy ezt a feladatot hatékonyan lehessen emulálni, így be kell majd építeni pár úgynevezett fixfunkciós blokkot, ami ezeket tartalmazza, illetve nem árt egy tesszellátor sem. A többi jellemzően fixfunkciós feladat (raszterizálás, interpoláció, blending, stb.) relatíve jó hatásfokkal emulálható, így ezekre nem feltétlenül szükséges fixfunkciós motort alkalmazni.

A Skylake tehát az IGP szempontjából nagyon izgalmasnak hangzó fejlesztés, hiszen a Larrabee nagy ígéreteit végre működés közben is megcsodálhatjuk. A projekt ugyan megjárta a poklot, hiszen valóságos pénznyelőnek számít, a piac is elvesztette benne a bizalmat, a konkurensek közül pedig az NVIDIA jót nevetgél a koncepción, de a megítélése előtt mindenképp érdemes megnézni, hogy mit tud a gyakorlatban, és erre úgy néz ki, hogy 2015-ben lehetőség is adódik.

  • Kapcsolódó cégek:
  • Intel

Azóta történt

Előzmények

Hirdetés