Nagyot nyerhet két új rendszerchipjével az Apple

Az M1 Pro és M1 Max komoly erőt képvisel a CPU és az IGP frontján is.

A hét elején számoltunk be az új Macbook Pro notebookokról, amelyekbe az Apple új rendszerchipeket tervezett. Ezek a tavalyi M1 SoC modernebb kiadásai, M1 Pro és M1 Max névvel. A friss ARMv8-as fejlesztések ismét a TSMC 5 nm-es node-ján készülnek, és viszonylag méretesnek mondhatók, mivel rendre 33,7 és 57 milliárd tranzisztorból épülnek fel, amelyek 245 és 432 mm²-es kiterjedést eredményeznek. Ebből azért nincs gond, mert notebookokba készültek, tehát ilyen lapkaméret is belefér.

A processzor oldalán maradnak a fentebb linkelt hírből már megismert tempós Firestorm és energiatakarékos Icestorm kódnevű magok, amelyek gyakorlatilag nem változtak semmit, a számuk viszont eltérő. Az M1 Pro és M1 Max is nyolc darab Firestorm és két Icestorm kiépítésű processzorrészt használ, bár az M1 Pro esetében van olyan lapkaverzió, amelynél két Firestorm mag letiltásra kerül. A rendszerszintű gyorsítótár (SLC) kapacitása nőtt, mivel az M1 Pro már 32 MB-os, míg az M1 Max 64 MB-os tárat kínál. A memóriavezérlő mostantól 6,4 GHz-es effektív órajelű LPDDR5 szabványú memóriákat kezel, és a kisebbik lapka esetében 256 bites, míg a nagyobbiknál 512 bites busszal lehet számolni. Ez rendre 204,8 és 409,6 GB/s-os memória-sávszélességet biztosít. A busz szélességétől egyébként függ a memória kapacitása is, a kisebb lapkához maximum 32, míg a nagyobbikhoz akár 64 GB társítható.

Apple M1 Pro
Apple M1 Pro [+]

A friss rendszerchipeken belül megmaradt a 16-magos Neural Engine, ami egy gépi tanulás dedukció szakaszához tervezett neuronháló gyorsító, ami viszont talán érdekesebb az az új médiamotor, és ezen belül megjelenik a ProRes és ProRes RAW formátumok hardveresen gyorsított kódolása és dekódolása. Megjegyzendő még, hogy a lapkákba épített kijelzőmotor HDMI 2.0-s interfészt biztosít, illetve a Thunderbolt 4-en keresztül a DisplayPort protokoll is elérhető.

Apple M1 Max
Apple M1 Max [+]

A lapkák nagy részét természetesen az integrált grafikus vezérlő teszi ki, amelyekről az Apple továbbra is nagyon szűkszavú, de az M1 megjelenése óta már eltelt sok hónap, így az adatok szépen szivárognak a működéséről. A vállalat jelentősen nem módosított a dizájnon, többek között maradt az 1278 MHz-es órajel, viszont a korábbi nyolcmagos kiépítést az M1 Pro 16, míg az M1 Max 32 magra növelte. Itt ismét ki kell emelni, hogy egyes lapkaverziókban kevesebb maggal kell számolni, de a szóban forgó rendszerchipekben a megadott értékek vannak fizikailag beépítve. A lehetséges IGP-konfigurációkat az alábbi táblázat részletezi:

Apple M1 Pro és Max IGP konfigurációk
Típus Multiprocesszorok
(ALU-k) száma
IGP órajele Elméleti számítási
kapacitás (FP32)
M1 Pro
14 (1792)
1278 MHz 4,58 TFLOPS
M1 Pro 16 (2048) 1278 MHz 5,22 TFLOPS
M1 Max 24 (3072) 1278 MHz 7,83 TFLOPS
M1 Max 32 (4096) 1278 MHz 10,44 TFLOPS

Szokás szerint kiemelnénk, hogy a mag az egy eléggé kisarkított fogalom az IGP tekintetében, de amíg az M1-nél még nem igazán tudtunk részleteket, addig mára világossá vált, hogy az Apple egy mag alatt gyakorlatilag magát a multiprocesszort érti. Egy ilyen multiprocesszor az iparágon belül extrém szélesnek számító, 128-utas feldolgozótömböt kínál egy 4096 bites vektormotor formájában. Ráadásul ez így volt a korábbi M1 SoC esetében is, csak annak debütálásakor titkolva voltak az efféle szaftos részletek.

Ez a fajta felépítés az egész rendszer legerősebb és egyben leggyengébb pontja. Az előnye az extrém széles vektormotornak az, hogy a tranzisztorköltségek szintjén viszonylag olcsón építhető ki papíron nagy számítási teljesítmény, viszont az ilyen erőteljes a szálszintű párhuzamosságra rágyúró rendszerek esetében a legnagyobb kérdés mindig az, hogy van-e annyi feldolgozandó munkaelem, amelyek ráküldhetők a rendkívül széles egységre, méghozzá úgy, hogy kellő mennyiségű szál van azonos szemcsézettségű csoportokba rendezve. Ez ahhoz szükséges, hogy optimálisan át lehessen lapolni a memória-elérés késleltetését. Az Apple dizájnját tekintve az M1, az M1 Pro és M1 Max is maximum 24 darab, azonos szemcsézettségű szálcsoportot, vagyis úgynevezett wave-et tud futtatni egy multiprocesszoron, és az M1-ről származó tapasztalatok alapján azért 16 konkurens wave indítására legalább érdemes optimalizálni, hogy a memória-elérések során relatíve sokszor legyen futtatható wave.

A helyzet röviden az, hogy legalább 16, de főleg 24 darab, 128 elemből álló azonos szemcsézettségű szálcsoport extrém sok helyet igényel a regisztereken belül, illetve a helyi adatmegosztást (LDS) tekintve, vagyis hiába kellene elméletben erre optimalizálni, komplexebb kódok mellett ez kivitelezhetetlen. Nem véletlen, hogy az AMD, az ARM, az Intel és az NVIDIA a közelébe sem megy az ennyire széles feldolgozótömböknek. Ugyan sok-sok TFLOPS-ot tudnának általuk a papírra írni, de a gyakorlatban rémálom lenne a hatékony működtetésük a fejlesztők szemszögéből.

A teljesítményt tekintve ez az egész annyit jelent, hogy az ultramobil eszközökhöz tervezett tesztprogramok (BaseMark GPU, 3DMark Ice Storm Unlimited, GFXBench 5.0) egészen optimálisak az Apple hardverének etetésére, mivel nem használnak olyan komplex (compute) shadereket, amiket egy modern, újgenerációs konzolokról portolt PC-s játék. Ezáltal az erőforrások allokációja kedvezőbb, ami pont jó az efféle extrém széles dizájnnak. A gond ott kezdődik, ha egy komolyabb játék kerül be a képletbe. Ilyenkor az történik, hogy egyre komplexebb shaderekkel kell dolgoznia a hardvernek, ezek regiszter-, illetve LDS-nyomása egyre erőteljesebb, vagyis drámaian csökken annak az esélye, hogy egy multiprocesszor be tud tölteni annyi azonos szemcsézettségű szálcsoportot, amivel a memória-elérés késleltetését az esetek többségében át lehetne lapolni. Itt már a papírra vetett TFLOPS-ok nem számítanak, mivel adatra fog várakozni a hardver, vagyis konkrétan nem számol semmit, amíg az adat meg nem érkezik.

Mindez azonban így sem számít az Apple-nek. Az M1, M1 Pro és M1 Max IGP-jének ott lehet csak ebből problémája, amit a cupertinóiak egyáltalán nem tartanak célpiacnak. Egyszerűen ott a saját áruházuk, amelybe biztosan ehhez a dizájnhoz optimalizált alkalmazások kerülnek, a többi áruház pedig olyan mindegy, majd vesz hozzájuk az illető egy PC-t. Ez a stratégia pedig általánosan kifizetődhet, mert pont ott gyorsak a saját fejlesztésű ARM-os rendszerchipek, ami az Apple számára fontos.

  • Kapcsolódó cégek:
  • Apple

Azóta történt

Előzmények

Hirdetés