GTC 2012: kiderült a GK110 specifikációja

A tegnapi napon számoltunk be az új Tesla kártyák érkezéséről, melyek közül kétségtelenül a K20-as verzió számít érdekesebb megoldásnak. Ez a termék a GK110 kódnevű lapkára épül, melyről korábban csak egy chipet ábrázoló fotó került elő. Ebből meg lehetett állapítani az SMX modulok számát, de azok felépítését, illetve az egyéb részleteket már nem lehetett látni. Elérhető azonban két új kép, mely az eddig elfedett részletekre is betekintést enged.

A GK110 logikai felépítése
A GK110 logikai felépítése [+]

A lapka logikai felépítésén látható a 15 darab SMX modul, amire a chipet ábrázoló fotóból nagy valószínűséggel következtettünk, ám emellett látható az L2 gyorsítótár is, melynek mérete 1,5 MB lesz. A memóriavezérlő hat darab 64 bites csatornára van osztva, így a memóriabusz 384 bites lesz. Ahogy a fentebb linkelt cikkben is említettük az NVIDIA még nem döntötte el a végleges specifikációkat, így az aktív SMX modulok számáról, a magórajelről, illetve a memória-sávszélességről még nincs semmilyen adat.

A GK110 SMX moduljának felépítése
A GK110 SMX moduljának felépítése [+]

Érdekesebb változás éri az SMX modult. Gyakorlatilag a GK104-es GPU-ban található verzió 192 darab CUDA magja kiegészül 64 darab dupla pontosságú számításokra kihegyezett feldolgozóval, így a rendszer ebből a szempontból is nagyon erős lesz. Tulajdonképpen elmondható, hogy a GK110-ben összesen 2880 darab 32 bites és 960 darab 64 bites lebegőpontos számításokra alkalmas stream processzor található. Az NVIDIA elmondása szerint a dupla pontosság melletti elméleti számítási teljesítmény túllépi az 1 TFLOPS-ot, amihez minimum 521 MHz-es magórajel szükséges, ha az összes SMX aktív. De mivel a cég utalt rá, hogy egy vagy két SMX modul inaktív lehet, így ennél valamivel magasabb lesz a magórajel – két SMX letiltása esetén 600 MHz kell a cég által felvázolt 1 TFLOPS-os tempóhoz. Utóbbi eshetőséggel számolva a nagyjából 3 TFLOPS-os szimpla pontosság melletti elméleti sebesség várható.

Az GK110 SMX moduljának érdekes része még az új 48 kB-os csak olvasható gyorsítótár, mely a meglévő 64 kB-os L1 gyorsítótárat egészíti ki. Utóbbi írható is a CUDA magok számára, illetve két részre osztható a feladat igényei szerint. Az új 48 kB-os olvasható gyorsítótár megjelenése azonban nagyon fontos szempont, ugyanis a GK104-ben bemutatott SMX modul a Fermihez viszonyítva alaposan visszalépett a megosztott memória CUDA magokra leosztott tempója szempontjából. Valószínű, hogy az NVIDIA az L1 cache adatátviteli tempójának növelése mellett egy extra gyorsítótárral is megpróbálja emelni a rendszer összesített bájt/FLOP teljesítményét, ami bizonyára meghozza majd a várt eredményt. Ezzel egyetemben a textúrázókhoz tartozó cache eltűnt, ami annak köszönhető, hogy ezek az egységek is az új 48 kB-os olvasható gyorsítótárat használják.

A GK110 az ECC-t is támogatja, így az L1 és L2 cache, illetve a fedélzeti tár védett ebből a szempontból. A GF100-hoz képest azonban az NVIDIA itt is javított, így bekapcsolt és a kikapcsolt ECC okozta teljesítménykülönbség között a differencia 66%-kal redukálódott.

Azóta történt

Előzmények

Hirdetés