Bedobta a belépőszintre az Intel a dedikált GPU-ját

Az Iris Xe MAX egyelőre mobil termékekbe érkezik, de jövőre lesz asztali változat is, igaz csak az OEM-eknek.

Dedikált GPU újra

Az Intel még 2018-ban jelentette be, hogy 2020-ban érkezik első dedikált GPU-juk, mely állítást persze rögtön lehet kontrázni azzal, hogy sok-sok évvel korábban már elérhető volt az i740-es VGA-ja az említett cégnek, de való igaz, hogy ezen nem GPU volt, mivel nem támogatta a hardveres T&L-t, ami a grafikus vezérlő definíciójának része. Az egész természetesen felfogás kérdése, az viszont kétségtelen, hogy az Intel szeretne ismét visszatérni a GPU-piacra, amivel megpróbálhatják feledtetni a tíz éve derekasat bukó Larrabee projekttel kapcsolatos emlékeket.

A Santa Clara-i óriáscég több szempontból is máshogy áll most a kérdéshez. Egyrészt a belépőszintről fognak építkezni felfelé, ami valószínűleg egy biztonságosabb megoldás a fejlődést tekintve, másrészt nem próbálnak hatalmas reformokat hozni, egyszerűen csak beállnak a sorba a konkurensek mellé.

A friss dedikált GPU-ig azonban meglehetősen rögös út vezetett: a vállalat évekig élt meg az IGP-k szintjén a 2015-ben leleplezett Gen9 architektúrából, a Gen10-es iteráció a 10 nm-es eljárás problémái miatt nem is került piacra, míg a Gen11-es dizájn ugyan megjelent az Ice Lake kódnevű lapkában, de inkább volt ráncfelvarrás, mint valóban komoly fejlesztés.


[+]

Itt el is érkeztünk az egyik legfontosabb tényezőhöz, nevezetesen ahhoz, hogy az Intelnek alaposan bele kellett nyúlnia a korosodó rendszerbe, hiszen ha az IGP-kről el akarnak mozdulni, akkor bizony el kell kezdeni jobban skálázódó dizájnt tervezni. Nem lehetett tehát ismét egy alibifejlesztést letenni az asztalra, hanem meg kellett teremteni a következő pár év hardverdizájnjainak alapját. Itt két lehetőség volt, vagy közel nulláról előhúzni valamit teljesen újat, vagy kezelni az eddigi rendszerek tipikus problémáit, ezzel utat nyitva a teljesítmény skálázására.

Az Intel az utóbbit választotta, ami valójában nem egy rossz döntés, mivel egy teljesen új architektúra kidolgozása nagyon sok időbe telik, miközben a vállalatnak nincs igazán nagy tapasztalata a piac reális működéséről, hiába uralják annak nagyjából kétharmadát. Ennek az az oka, hogy a legtöbb Intel IGP-t jellemzően irodai szinten használják, vagyis megterhelő programokkal kevesebbet találkoznak, így viszont az Intel felé leadott visszajelzések igen limitáltak ahhoz képest, amit mondjuk az AMD és az NVIDIA kap.

Hirdetés

Nagyon is hasznos lenne a cég számára igen közelről megismerkedni a ténylegesen élvonalbeli játékfejlesztéssel, hiszen olyan tapasztalatot gyűjthetnek vele, amit később fel tudnak használni egy teljesen új architektúra tervezésénél. Erre pedig az aktuális dizájnok ráncfelvarrása is optimális, hiszen el tudnak vele jutni a komolyabb teljesítménykategóriáig, ami végeredményben azt is jelentheti majd, hogy egy-egy játékfejlesztőt meggyőzhetnek arról, hogy megéri már az adott videojáték-motor alapjait is Intel GPU-val fejleszteni. Ez ma még nem igazán jellemző ezen a piacon, noha az Intel támogat bizonyos címeket, de ezek maximum optimalizálást tartalmaznak a vállalat grafikus megoldásaira.

Az építkezés többlépcsős lesz, és ennek első lényeges eleme a DG1 kódnevű fejlesztés. Az Intel a tranzisztorszámot és a kiterjedést nem adta meg, de az általunk látott képek alapján a GPU területét 70-80 mm² közé becsülnénk. A gyártás szempontjából a vállalat a legújabb 10 nm-es node-ját használja, pont azt, amin a Tiger Lake lapkák is készülnek.

Megújult architektúra

A grafikus számítások szempontjából az új Xe architektúra sokban hasonlít az elődökhöz, de érdemes kiemelni, hogy ez a dizájn az LP verzió, vagyis kifejezetten alacsony teljesítményszintre lett optimalizálva. A jövőre érkező HP variáns már nagyobb változásokat fog kínálni, ugyanakkor a mostanra letervezett struktúra azt is szolgálja, hogy később pusztán a shader tömbök számának növelésével lehessen skálázni a rendszert. Jelenleg viszont ez nem kritikus tényező, így a XeLP slice nevű shader tömbből mindössze egy található a lapkában. Ez egy igen nagy szerkezeti egység, és három nagyobb logikai részre osztható.

A legnagyobb előrelépés, hogy a geometria feldolgozásáért, tesszellálásért és raszterizálásért felelős setup motor immáron teljes egészében a shader tömbben található. Most ennek nincs jelentősége, de később majd lesz, hiszen így a shader tömb számának növelésével emelkedik a geometriai számításokra, illetve a raszterizálásra vonatkozó teljesítmény. Ráadásul az aktuális dizájn már most két háromszöget dolgoz fel órajelenként. A rendszerben található multiprocesszorokat az Intel subslice néven emlegeti, és ezekből maximum hat darab található a DG1-ben. A felépítésük meglehetősen komplex, hiszen minden ilyen részegység rendelkezik 16 darab feldolgozóegységgel, vagy ahogy az Intel hívja, EU-val (Execution Unit). A multiprocesszoron belüli feldolgozóegységeket nyolc darab textúrázócsatorna szolgálja ki, ezek mellett természetesen található egy 64 kB-os kapacitású L1 gyorsítótár, amely dinamikusan particionálható, így a meghajtó oldaláról tetszőlegesen beállítható, hogy a textúraadatok számára mekkora terület lesz fenntartva.

Maguk a feldolgozóegységek a korábbi generációkhoz képest szintén változtak, mégpedig nem is kis mértékben, mivel az Intel két darab 128 bites vektormotor helyett mostantól egy 256 bitest alkalmaz. A helyzetet bonyolítja, hogy a feldolgozóegységek párosítva vannak, vagyis maguk a párok közös ütemezőt kaptak. Itt az Intel minden bizonnyal a tranzisztorokkal akart spórolni, hiszen az ütemező nem olcsó mulatság ebből a szempontból, így amellett tudták kvázi megduplázni a shader részelemek számát egy multiprocesszoron belül, hogy az ütemezők száma nem nőtt. Ráadásul a párosított feldolgozóegységek különálló vektormotorjai nem ugyanazt a regiszterterületet használják, ami elég nagy előny.

A logikai működést tekintve az Intel a frissített dizájnnal a függőséglimitre próbált reagálni, ami kifejezetten jellemző tényezője volt korábbi rendszereiknek. A régebbi feldolgozóegységek csak akkor voltak ideálisan kihasználva, ha az ütemező talált két olyan konkurens wave-et, amelyek futtathatók voltak egymás mellett. Ez a szituáció ugyan most is előfordulhat, hiszen egy ütemező etet két vektormotort, de a különálló regiszterterület miatt betölthető ezekre eltérő shader kód is. Ilyen formában ez már nagyon is komoly fegyvertény, mert a shaderek igen eltérők lehetnek egy programon belül. Némelyik kód nem igényel túl sok regisztert, de ennek az ellentéte is előfordulhat. Az Intel ugyan nem részletezte, hogy az Xe architektúrájukban egy feldolgozóegység mennyi regiszterterületet tartalmaz, az viszont biztos, hogy az új felépítéssel több működésbeli konfigurációra nyílik lehetőség.

A lényeg itt az, hogy ha túl sok regiszter szükséges egy shader futtatásához, akkor a statikus erőforrás-allokáció nem lesz optimális, vagyis relatíve kevés konkurens wave kezelhető egymás mellett egy vektormotorra levetítve. Esetlegesen annyira kevés, hogy az adatelérésből eredő késleltetés nem lapolható át megfelelő mértékben, ami a feldolgozóegység kihasználtságán jelentősen ront. Tulajdonképpen ez a kihasználtságlimit, amikor nincs elég konkurens wave ahhoz, hogy mindig dolgozzon a vektormotor. Erre az Xe architektúra olyan formában tud reagálni, hogy speciálisan fordítják le a kódot a hardverre, így aztán egy shader nem csak egy, hanem két, egymással párosított feldolgozóegységet is felhasználhat. Ezzel nő a regiszterterület optimális kihasználása, így pedig a konkurens wave-ek száma, méghozzá annak az árán, hogy újra képbe kerül a függőséglimit.

A legtöbb esetben valószínű, hogy különálló módon kezelik majd az egy multiprocesszoron belül található feldolgozótömböket, de bizonyos shadereknél érdemes a páros munkavégzésre szavazni, ami egy shader fordítón belül kezelhető döntés lesz.


[+]

A feldolgozóegységeken belüli 256 bites vektormotorok relatíve komplexek, és natívan támogatják a 32 és 16 bites lebegőpontos, illetve a 16 és 8 bites integer operációkat, egyedül a 32 bites integer a kakukktojás, mivel az ilyen adattípusra épülő feladatokat egy helyett két órajelciklus alatt, vagyis felezett sebességgel oldják meg. Az említett vektormotor mellett található még egy kétutas, ME nevű, trigonometrikus és transzcendens utasítások végrehajtásáért felelős, speciális funkciókat biztosító részegység.

A multiprocesszorok része az úgynevezett SLM (shared local memory) is, ami a helyi adatmegosztásra fenntartott memóriaterület. Ennek kapacitását az Intel nem adta meg, de minimum 32 kB-nak kell lennie.

A ROP blokkok tekintetében az Intel egy shader tömbbe hármat épített, ezek egyenként 8 blending egységgel rendelkeznek. Ha a DG1-es fejlesztést nézzük, akkor összességében egy shader tömbből áll az egész lapka, ezen belül pedig egy setup motor szolgál ki hat multiprocesszort és három ROP blokkot. A feldolgozó- és a blending egységek száma így összesen rendre 96 és 24, a textúrázócsatornák száma pedig 48. Mindezek munkáját egy 16 MB-os L3 gyorsítótár segíti, ami a célpiacot tekintve extrém nagynak tekinthető, de az Intel rendszereire mindig is jellemző volt, hogy annyira nem bántak hatékonyan a memóriaelérések átlapolásával, és a vállalat ezt továbbra is relatíve nagy gyorsítótárral próbálja kezelni. A rendszer egyébként 1,65 GHz-es maximális órajelen üzemel, ami a fentiek ismeretében a beépített 768 darab shader részelemre 2,5 TFLOPS-os szimpla pontosság melletti számítási teljesítményt, 79,2 gigatexel/s-os texel, valamint 39,6 gigapixel/s-os pixelkitöltési sebességet jelent.

A memóriavezérlő szempontjából érdekes lépés, hogy a DG1 LPDDR4X szabványú memóriákat támogat, méghozzá 4266 MHz-es effektív órajellel, a memóriabusz szélessége pedig 128 bit. Ez 68 GB/s-os memória-sávszélességet jelent. Ez valószínűleg elég, emellett a fejlesztés a mobil piac belépőszintjét célozza, ahol be kell férni 30 wattos keretbe, amit a DG1 meg is tesz a maga 25 wattjával. A GPU az adott processzorhoz x4-es PCI Express 4.0-s interfészen keresztül kapcsolható.

Megemlítendő még az úgynevezett copy engine is, ami gyakorlatilag két DMA motort jelent, a shared functions gyűjtőnevű rész pedig a parancsmotorokra vonatkozik, utóbbiakról egyelőre nincsenek részletes adatok.

Sok hangzatos név és a multimédia

Az Intel a DG1 kódnevű GPU-t Iris Xe MAX névre keresztelte el, és 4 GB memória lesz mellé társítva. Amiből nagyon sokat hozott a vállalat, azok a hangzatos nevek: DP4a, Hyper Encode, Additive AI stb. A vállalat kiemelten ügyelt arra, hogy minden, ami marketingszinten bevethető, el legyen nevezve, még ha csak egy szimpla utasítás az, akkor is. Ennek nyilván van haszna a színes diákon, de a valós iparági újításokat nehezen követhetővé teszi. Például a DP4a valójában a 8 bites integer mátrixszorzásra vonatkozó utasítás marketingneve. A legtöbben ezt nem nevezik el külön, mert ilyen formában minden egyszerűbb operációra fel lehetne húzni valami hangzatos körítést, ezekből pedig nem kevés van egy mai GPU-ban.


[+]

A problémával valószínűleg utólag szembesült a marketingosztály, így jött egy Deep Link kifejezés is, ami gyakorlatilag a gyűjtőneve lesz az összes újdonságnak. Ezzel nem kell megjegyezni a fentebb említett kifejezéseket, hanem elég csak Deep Link technológiaként utalni rájuk. Ilyen formában viszont feleslegesen adtak kvázi mindennek nevet, ha azokat úgy sem használják.

Az Iris Xe MAX marketingje tehát laposan megnehezíti az új technológiák közötti eligazodást, éppen ezért nem feltétlenül érdemes törődni vele, jelenleg csak belezavarodni lehet. Emiatt inkább a gyakorlati részére koncentrálnánk a lehetőségeknek, mert a nehezen emészthető körítés mögött vannak ám igen hasznos dolgok is!

A legfontosabb technológiai előrelépés, hogy továbbfejlődött a multimédiás részegység, illetve a kijelzőmotor. Utóbbi a HDMI 2.1 kivételével megfelel a kor által elvárásainak, tehát DisplayPort 1.4-en és HDMI 2.0-n keresztül elméletben akár négy kijelző is támogatható, elérhető a 8K felbontás, a HDR10 és Dolby Vision támogatása, illetve 360 Hz-es maximális frissítésig bezárólag a VESA variálható frissítési frekvenciára vonatkozó Adaptive-Sync szabványát is implementálták, amit az Intel szimplán Adaptive Sync néven emleget.

A multimédiás részleg is lényeges változásokon esett át. Egyrészt a mérnökök megduplázták a kódolók és dekódolók teljesítményét, amit roppant egyszerűen értek el: kétszer több részegységet építettek be. Emellett lényeges újítás az AV1 formátum dekódolásának támogatása, illetve a HEVC kódolása szempontjából elérhetővé vált az SCC (Screen Content Coding) kiterjesztés.


[+]

A hardveres szinten nagy az előrelépés, és itt jönnek elő az Intel Deep Link dolgai, ami például az általuk tervezett CPU, IGP és GPU együttműködéséről is szól. Itt nem játékokra kell gondolni, az azért elég nagy falat, hanem olyan programokra, ahol például a feladatok kiadhatók több részegységre is. Ilyen például a videók transzkódolása. Mivel a Tiger Lake, illetve a DG1 ugyanazt a szoftverkörnyezetet használja, megoldható, hogy a CPU IGP-je és a dedikált GPU is feldolgozzon egy-egy külön állományt, amivel gyakorlatilag párhuzamosítottá válik a munka. Ehhez hasonló példákra kell gondolni, ahol sok különálló feladat van, és ezek eloszthatók a rendelkezésre álló erőforrások között. Ehhez persze direkt támogatás kell az adott alkalmazás részéről, de az Intel szerint már vannak megfelelő programok, és érkeznek is újak.

Lényeges elem még az IGP-vel rendelkező CPU-kban már működő Adaptix technológia, ami kapott egy Dynamic Power Share kiterjesztést. Ez lényegében ugyanaz, mint az AMD-féle SmartShift. Az a célja, hogy ha a gyártó a rendszerchipet és a grafikus vezérlőt is az Inteltől rendeli, akkor lehetővé válik a teljes rendszer fogyasztásának hatékony vezérlése. Ilyen formában a platformszintű fogyasztási keretből a különböző feladatoknak megfelelően vagy a CPU, vagy a GPU kaphat több energiát, ezzel pedig növelhető a teljes rendszerre levetített teljesítmény, miközben az energiaigény nem igazán változik.


[+]

Az Intel szerint az új fejlesztésük teljesítménye elég a GeForce MX350-es GPU ellen, és a tesztjátékok többségében gyorsabb is volt nála. Olyan magasra azért a cég nem tette a lécet, hiszen már a GeForce MX450-et is bejelentették erre a szintre, de valahol el kell kezdeni, és ebben a hónapban ez három notebookkal meg is történik. Később természetesen majd bővül a lista, illetve asztali szintre is érkezik az Iris Xe MAX, de csak az OEM-eknek.

Abu85

  • Kapcsolódó cégek:
  • Intel

Azóta történt

Előzmények

Hirdetés