Tovább hengerelne a szerverpiacon az AMD

A cég az Intelnek esélyt sem ad a felzárkózásra, most pedig célba vették az NVIDIA-t is.

Erősödő Instinct

A processzorokon túl az AMD az Instinct MI100 nevű gyorsító utódját, az MI200 sorozatot is bejelentette. Első körben két fejlesztés érkezik, Instinct MI250 és MI250X jelzéssel, amelyek az CDNA 2 architektúrára épülnek.


[+]

A CDNA 2 az eredeti CDNA-hoz hasonlóan egy grafikai feladatra szabott részegységektől megfosztott rendszer, a fő fókusza az általános számítások kiszolgálása, aminek hála azért sok ismert részegység megmaradt benne. A parancsprocesszorok tekintetében négy ACE dolgozik egy lapkában, amelyek egy HWS (Hardware Scheduler) fennhatósága alá tartoznak. Ezzel a rendszer összességében 32 compute parancslistát kezel, finomszemcsés preempció és a QoS (Quality of Service) támogatása mellett. Előbbi felel azért, hogy a kritikus fontosságú feladatok előnyt élvezzenek, míg utóbbi a többfelhasználós környezet hatékony kezelését teszi lehetővé, ráadásul virtualizálható a teljes lapka, mindezt teljesen automatikus hardveres ütemezés mellett.


[+]

Természetesen továbbra is a shader motorok számítanak az alapvető feldolgozócsoportoknak, ezekből négy található az új chipben, és mindegyik ilyen egység 28 darab úgynevezett CU-t tartalmaz. Ez tekinthető a rendszer multiprocesszorának, és négyes blokkokba vannak rendezve egy shader motoron belül, 32 kB-os utasítás és 16 kB-os skalár gyorsítótár társaságában. A TSMC 6 nm-es node-ján készülő, 29,1 milliárd tranzisztorból álló, Aldebaran kódnevű lapkában 112 darab CU lesz, de terméktől függően az AMD párat letilt.

Hirdetés

Egy CU-n belül megtalálható az LDS, vagyis a helyi adatmegosztás, illetve az L1 gyorsítótár, amelyeken osztozik a 16 darab load/store egység által kiszolgált négy skalár feldolgozó, illetve négy 16-utas vektormotor, amelyekhez rendre egyenként 3,2 és 128 kB-os regiszterterület tartozik. Ez új dizájn natívan támogatja a dupla és szimpla pontosságot, így egy vektormotorra levetítve 16 dupla és 16 szimpla pontosságú operáció kerülhet végrehajtásra órajelenként. Kihasználva a szélesített feldolgozót, az AMD bevezette a 32 bites lebegőpontos operációkra a rapid packed math képességet, vagyis a meglévő kódokat kiegészítve megduplázható a rendszer teljesítménye.

Mindez máris jelentős ugrás az elődhöz viszonyítva, viszont maga a CDNA 2 a mátrixfeldolgozó tekintetében is újít. Utóbbi továbbra is számos adattípust kezel: 8 bites fixpontost, illetve 16 és 32 bites lebegőpontost, ráadásul utóbbi kettőre most is igaz, hogy nem egyedi, hanem IEEE754-es lebegőpontos szabványnak megfelelő formátumokat használ, illetve 16 bites adattípusra elérhető a bfloat16 is, aminek az az előnye, hogy a 32 bites lebegőpontos adattípussal megegyezően 8 bites exponenst használ, viszont a mantissza 23 bit helyett csak 7 bites. Ezzel természetesen a pontosság csökken, de a célterületet tekintve így is kedvezőbb a normál 16 bites lebegőpontos adattípushoz képest, miközben a bfloat16 teljesítményelőnye a 32 bites operációkhoz viszonyítva jelentős. Extra képesség viszont a 64 bites lebegőpontos adattípus kezelése a mátrixfeldolgozókon belül.


[+]

A PCI Express 4.0-s interfészt támogató, nyolc Infinity Fabric 3.0-s linket is biztosító, két darab, VCN nevű multimédiás motorral felvértezett lapkán belül a megosztott, 8 MB-os L2 gyorsítótár sem hiányzik, ehhez 4096 bites, HBM2E szabványú memóriákat kezelő memóriavezérlő társul. Itt lényeges kiemelni, hogy eddig egyetlen egy lapkáról beszéltünk, amit az AMD GCD-nek, azaz Graphics Compute Die-nak hív, de az Instinct MI250-es fejlesztéseken egy tokozásra két ilyen GCD kerül, amelyek egymással Infinity Fabric kapcsolaton keresztül kommunikálnak. Ez memóriakoherenciát is biztosít számukra, vagyis bár fizikailag a két lapka működik, logikailag egynek látszódnak és egyként kezelendők.


[+]

AMD Instinct MI200 sorozat (CDNA 2 architektúrával)
Típus MI250 OAM MI250X OAM
GCD kódneve Aldebaran
GCD-k száma 2
GCD-k összeköttetése memóriakoherens
Architektúra CDNA 2
Maximális magórajel 1700 MHz
Shader részelemek száma 13 312 14 080
Mátrixfeldolgozók száma 832 880
QoS-t támogató parancslista van
DMA motorok száma GCD-nként 2
Int4 mátrix számítási teljesítmény 362,1 TOPS 383 TOPS
Int8 mátrix számítási teljesítmény 362,1 TOPS 383 TOPS
bfloat16 mátrix számítási teljesítmény 362,1 TFLOPS 383 TFLOPS
FP16 mátrix számítási teljesítmény 362,1 TFLOPS 383 TFLOPS
FP32 mátrix számítási teljesítmény 90,5 TFLOPS 95,7 TFLOPS
FP64 mátrix számítási teljesítmény 90,5 TOPS 95,7 TOPS
Int8 számítási teljesítmény 362,1 TOPS 383 TOPS
FP16 számítási teljesítmény 362,1 TFLOPS 383 TFLOPS
FP32 számítási teljesítmény 45,3 TFLOPS 47,9 TFLOPS
FP64 számítási teljesítmény 45,3 TFLOPS 47,9 TFLOPS
Effektív memória-órajel 3200 MHz
Memória típusa HBM2E
Memóriabusz 8192 bit
VRAM kapacitása 128 GB
Memória-sávszélesség 3,2 TB/s
Infinity Fabric linkek száma 6 8
TDP fogyasztási keret 500/560 watt
Formátum OAM
RAS képességek támogatás
van
Memóriakoherencia a host CPU oldalán
nincs van

A táblázat alapján furcsa lehet, hogy a TDP fogyasztási keretnél két érték van megadva. Ez attól függ, hogy a hűtés passzívan vagy folyadékkal történik, utóbbi esetben ugyanis van a rendszerben 60 wattnyi tartalék némileg erőteljesebb teljesítmény leadására.

Az Instinct MI200 sorozat a fedélzeti memóriára, illetve a lapkán belüli összes regiszterre és gyorsítótárra vonatkozóan támogatja az ECC-t, illetve Infinity Fabric interfészen keresztül összesen négy darab gyorsító köthető össze, egy host processzorra levetítve.

A cikk még nem ért véget, kérlek, lapozz!

  • Kapcsolódó cégek:
  • AMD

Azóta történt

Előzmények

Hirdetés