Az AMD hivatalosan is bejelentette az Instinct MI300A és MI300X nevű gyorsító startját. A két fejlesztésről a vállalat a nyáron beszélt részletesebben, így ma már nem meglepetés, hogy az iparág legbonyolultabb chiplet dizájnjáról van szó, ami komplex 3D-s összeköttetést alkalmaz. Az alapokat mindkét modell esetében 4 darab 6 nm-es IO chiplet adja, amelyek tartalmazzák a memóriavezérlőt, a memóriacsatornákat, illetve az összesen 256 MB-os Infinity Cache-t. Ezeknek a chipleteknek a tetejére kerülnek közvetlenül a számítást végző lapkák. Itt két opció van: az MI300X IO chipletenként két darab, azaz összesen nyolc, 5 nm-es node-on készülő XCD-t kínál, míg az MI300A esetében három IO lapkán két-két XCD, egyen pedig három darab szintén 5 nm-es CCD található. A gyártást a TSMC végzi.
Hirdetés
Az XCD-k a CDNA 3 architektúrára épülnek, amelynek a pontos felépítése még nem ismert, de egy XCD-ben fizikailag 40 darab multiprocesszor található, viszont az egyes dizájnokon nem lesz mind engedélyezve. A CCD-k Zen 4 magokat tartalmaznak, chipletenként fizikailag nyolc darabot, de ezekből sem aktiválja mindet az AMD.
A memória tekintetében mindkét dizájn 8192 bites memóriavezérlőt biztosít, amelyhez összesen nyolc darab HBM3 szabványú memóriastack kapcsolódik. Az MI300X esetében az összesített kapacitás 192 GB, míg az MI300A-nál 128 GB. Érdemes kiemelni, hogy az eltérő chipletkonfiguráció miatt a tranzisztorszám is eltér, az előbbi hardver 153, míg az utóbbi 146 milliárd tranzisztorból áll.
A kétféle fejlesztés pontos paramétereit az alábbi táblázat részletezi:
Típus | MI300A | MI300X |
---|---|---|
IO chipletek száma |
4 | |
XCD-k chipletek száma | 6 | 8 |
CCD-k chipletek száma | 3 | - |
XCD architektúra | CDNA 3 | |
CCD architektúra | Zen 4 |
- |
XCD-k és CCD-k összeköttetése | memóriakoherens | - |
Maximális XCD magórajel | 2100 MHz | |
Shader részelemek száma | 14 592 | 19 456 |
Processzormagok száma | 24 | - |
Int8 számítási teljesítmény | 1960 TOPS | 2600 TOPS |
bfloat16 számítási teljesítmény | 980,6 TFLOPS | 1300 TFLOPS |
FP16 számítási teljesítmény | 980,6 TFLOPS | 1300 TFLOPS |
FP32 mátrix számítási teljesítmény | 122,6 TFLOPS | 163,4 TFLOPS |
FP64 mátrix számítási teljesítmény | 122,6 TFLOPS | 163,4 TFLOPS |
FP32 számítási teljesítmény | 122,6 TFLOPS | 163,4 TFLOPS |
FP64 számítási teljesítmény | 63,1 TFLOPS | 81,7 TFLOPS |
Effektív memória-órajel | 5200 MHz | |
Memória típusa | HBM3 | |
Memóriabusz | 8192 bit | |
VRAM kapacitása | 128 GB | 192 GB |
Memória-sávszélesség | 5,3 TB/s | |
ECC támogatás |
van | |
TDP/maximális fogyasztási keret | 550/760 watt | -/750 watt |
Formátum/Tokozás | Socket SH5 | OAM |
PCI Express vezérlő |
x16-os PCI Express 5.0 | |
Infinity Fabric linkek száma | 8 | |
RAS és Page Retirement |
van | |
Memóriakoherencia a host CPU oldalán |
van |
Az MI300X OAM formátumban érkezik, és passzív hűtést használ, vagyis az adott szervernek kell megoldania a légáramlást. Az MI300A már Socket SH5 tokozásban érkezik, és a hűtés tekintetében a gyártó választja meg a kívánt megoldást, ami lehet aktív vagy passzív is.
AMD Instinct MI300A, MI300X és MI300X Platform [+]
Az MI300X-ből az AMD platformszintű implementációt is kínál, ami lényegében nyolc darab MI300X-et köt össze 896 GB/s-os adatátviteli sebesség mellett, UBB 2.0-s platformformátumon.
A hardverek mellé érkezik a ROCm 6, amely a generatív AI feladatokra lett optimalizálva. A friss csomag nagymértékű optimalizálást tartalmaz, így számottevően gyorsabb az elődnél, továbbá támogatja az új adattípusokat. Értelemszerűen az új ROCm leginkább az Instinct MI300-as dizájnokhoz illeszkedik.
A friss fejlesztéseket a vállalat fő szerverpartnerei már megkapták, és a bejelentéssel párhuzamosan leplezik le saját szerverdizájnjaikat.