Blogunkban visszatérő téma a vállalat Post-K projektje, amelynek processzoráról nagyjából két hónapja írtunk egy beszámolót. Mivel a prototípus gyakorlatilag működik, a vállalat végre igen érdekes konkrétumokkal állt elő az idei Hot Chips alkalmával, ahol a teljesítményt is körvonalazták, bár még csak felszínesen.
A fejlesztés alatt álló CPU főbb paramétereit nem vesszük át újra, ezeket világosan leírja a fentebb linkelt blog, így ebben a bejegyzésben csak az új dolgokra koncentrálunk. Az egyik legfontosabb információ, hogy a termék neve A64FX lesz, ami nem túl fantáziadús, de a célnak megfelel. A belül található 48 darab, szabadon felhasználható processzormag az ARMv8.2-es architektúrát használja, az SBSA specifikáció szempontjából pedig a 3-as szintnek felel meg a rendszer.
A 7 nm-es node-on készülő lapka 8786 millió tranzisztort tartalmaz, a tokozáson keresztül pedig 594 tű vezethető ki. Itt az első igazi érdekesség, hiszen az izmosabb szerverprocesszorok manapság bőven 3000-4000 tűs tokozást használnak, de ez leginkább a sokcsatornás memóriabusz miatt van. Az A64FX ugyanakkor HBM2 memóriát kap, ami a processzor mellé kerül a tokozásra, így összesen 32 GB-os kapacitást, illetve 1 TB/s-os memória-sávszélességet tesz lehetővé.
(forrás: AnandTech) [+]
Kicsit elmélyedve a dizájnban, a lapka mellé konkrétan négy darab 8 GB-os HBM2 memóriaszett kerül. Ezek egyenként 1024 bites buszon keresztül kapcsolódnak a belül csak CMG-nek nevezett logikai tömbhöz, ami 12 szabadon felhasználható, illetve 1 darab segédmagot tartalmaz, amelyek között a megosztott L2 gyorsítótár kapacitása 8 MB. A memória mennyiségéből nem nehéz tehát kiszámolni, hogy négy darab CMG található a lapkán belül, és ezeket összeadva ki is jön a 48 darab szabadon felhasználható, illetve a 4 darab segédmag. A CMG-ket, valamint a 16 darab sávot kínáló PCI Express 3.0-t, illetve a tízportos Tofu (Torus fusion) vezérlőt chipen belüli hálózat (NoC) köti össze.
Az látható, hogy az A64FX nem egy tipikus szerverprocesszor, sokkal inkább egy célterületre kigyúrt megoldásnak tűnik, elvégre viszonylag kevés a processzoronkénti memória, illetve a PCI Express vezérlő sem kínál túl sok sávot, ezzel szemben az SVE SIMD kiterjesztéshez 512 bites vektormotorok tartoznak, illetve a memória-sávszélesség is igen nagy. Nem csoda, hogy a Fujitsu 2,7 TFLOPS fölötti számítási teljesítménnyel kalkulál dupla pontosság melletti mátrixszorzás során, ami CPU-hoz mérten igen acélos eredmény, 8 bites integer skaláris szorzat mellett pedig a 21,6 TFLOPS is elérhető.
Egy magon belül két darab 512 bites vektormotor található, ami önmagában is kihívás, hiszen ezt nem könnyű etetni adattal. Éppen ezért a magonkénti, 64 kB-os L1 adatgyorsítótár adatátviteli teljesítménye a vektormotorok felé 230 GB/s lesz.
(forrás: AnandTech) [+]
Az SVE-nek egyébként az a különlegessége, hogy egyáltalán nem hasonlít például az Intel és az AMD által alkalmazott AVX-re, ugyanis CPU-knál hagyományosnak számító SIMD helyett inkább a GPGPU-knál hódító SIMT modellt erőlteti. Ennek értelméről egy korábbi hírben írtunk.
A várható órajeleket a Fujitsu nem közölte, de tekintve, hogy a számítási teljesítményt megadták, így abból visszaszámolva 1,8 GHz körül ketyeghet majd a GPGPU-s jellemzőkkel jócskán megspékelt újdonság.