2012. május 31., csütörtök

Gyorskeresés

Főszponzorunk

ASUS

Útvonal

Tesztek  »  Videokártya rovat

Az NVIDIA a dedikált GPU eltűnését vetíti előre

A vállalat szerint csakis az integráció jelentheti a jövőt, ezért a heterogén modellnek rendelik alá a fejlesztéseket.

Hirdetés

Az Echelon projekt részletei

Visszatérve a tanulmányra, az NVIDIA alapvetően a két részegységet TOC (throughput-optimized core) és LOC (latency-optimized core) jelzővel illeti. Előbbi tekinthető hagyományos értelemben grafikus processzormagnak, azaz adatpárhuzamos végrehajtásra optimalizált egységnek, míg utóbbi lényegében a központi processzormag, azaz egy késleltetésre érzékeny feldolgozó, amit kifejezetten az egy szálon elérhető magas teljesítmény miatt alkalmaznak a mérnökök. A heterogén módon programozható lapkák ebből a szempontból egyszerűek. A magas teljesítményről az hatékonyabb TOC-ok gondoskodnak, vagyis ezek végzik a munka oroszlánrészét, míg a LOC-ok alapvetően az operációs rendszer futtatásáért, és az alacsony késleltetést igénylő folyamatok feldolgozásáért felelnek. Azt talán mondani sem kell, hogy a technikai értelemben butább TOC-ok számítási teljesítménye messze felülmúlja az amúgy okosabb LOC-ok képességeit, így nem véletlen, hogy a feldolgozás nagy részét ezek a részegységek végzik majd.

A TOC felépítése
A TOC felépítése [+]

Az NVIDIA a LOC felépítését nem részletezte, de tipikusan egy átlagos processzormagra fog hasonlítani. A TOC esetében már más a helyzet. Itt a rendszer nyolc darab részelemből áll, melyek 64 darab konkurens szálat kezelő MIMD egységek. Ezek felfűzhetők egy SIMD tömbbe, ami növeli a feldolgozás hatékonyságát egyes kódok esetében. A részelemek az L1 adat gyorsítótárra kapcsolódnak, és megosztott L1 utasítás gyorsítótárat használnak. Magukon a részelemeken belül az L0 adat és utasítás gyorsítótár, a regiszterterületek, illetve konkrétan a feldolgozók találhatók.

Az Echelon projekt számokban
Az Echelon projekt számokban [+]

Az Echelon projekt ezen a ponton LIW (Long Instruction Word) architektúrára épít, ami egyfajta VLIW (Very Long Instruction Word) megvalósítás. Ez maximum három integer, egy memória és két dupla pontosságú lebegőpontos operációt jelent egyetlen részelemen. Ezenkívül az utasításarchitektúra támogatja a részleges utasításszavak párhuzamos végrehajtását, vagyis az előbb vázolt lehetőség mellett négy szimpla és két dupla pontosságú lebegőpontos operáció végrehajtása is lehetséges. Az utasításszavak kialakításáról a driver fordítója gondoskodik, vagyis a párhuzamosítás statikus elven történik, így a hardvernek ezzel nem kell törődnie. Ezzel a rendszer hatékonyabban működhet, de tipikusan nagyobb terhet ró a rendszerprogramozókra a fordító megfelelő optimalizálása.

Az Echelon projekt logikai felépítése
Az Echelon projekt logikai felépítése [+]

A TOC-ok és a LOC-ok közötti kommunikációról egy chipen belüli hálózat (NoC) gondoskodik, melyhez kapcsolódnak majd a memóriavezérlők és az egyéb részegységek, mint például a többi lapkával való kommunikációt biztosító hálózati interfészek. Mielőtt az Echelon projekt számadatait részleteznénk, megjegyezzük, hogy mindez csak egy tervezet, amire konkrét termékek épülhetnek a jövőben, de azok esetlegesen eltérhetnek a felvázolt kialakítástól. Éppen ezért az NVIDIA tanulmánya elsősorban elméleti alapokra épít.

A cikk még nem ért véget, kérlek, lapozz!

Azóta történt

Előzmények

Főszponzorunk

ASUS

Gyártók, szolgáltatók

Hirdetés

Copyright © 2000-2012 PROHARDVER Informatikai Kft.