AI a notebookban: megérkezett az AMD Strix Point

Az új, mesterséges intelligenciára is kihegyezett platformot egy ASUS Zenbook S 16-ban próbáltuk ki.

Az XDNA 2 mélylélektana

A processzorrész és az IGP után érdekes csemegének számít az NPU, vagyis a neuronháló gyorsító. Az XDNA 2 architektúrára épülő fejlesztés az első olyan dizájnja az AMD-nek, ami megfelel a Microsoft Copilot+ követelményeinek, azaz minimum 40 TOPS-os teljesítményre képes. Ennél persze többet is tud – de ne rohanjunk ennyire előre.

Hirdetés

Maga az NPU alapvetően a Xilinx felvásárlásával megszerzett technológiákat kamatoztatja, és több dolog miatt is megy erre a piac. Egyrészt világosan látszik, hogy az AI feladatok a jövőben komoly szerephez juthatnak, így ezek egy részének lokális futtatása fontos szempont, másrészt a korábbi hardverelemek nem igazán optimálisak erre a célra. Persze a processzor és a grafikus vezérlő is képes mátrixszorzásra, tehát funkcionálisan végrehajtják a munkafolyamatokat, de felépítésük nem illik ahhoz, amit egy AI feladat igényel. Ez jelentős hatékonyságbeli hátrányt eredményez, ugyanis az AMD mérései szerint egy GPU a CPU-hoz viszonyítva 8-szor hatékonyabb AI munkafolyamatban, ami önmagában nagyszerű, de egy NPU akár 35-ször is hatékonyabb lehet ebben az összevetésben. És mivel a célpiacot itt a mobil gépek jelentik, egyáltalán nem mindegy, hogy milyen üzemidőt ér el a rendszer ilyen munkamenetek futtatása során.


[+]

Az XDNA 2 dizájn alapja az úgynevezett AIE Tile, vagyis AI Engine Tile, amelyekből összesen 32 darab található az NPU-n belül. Ezek NoC, azaz network on chip jellegű hálózatba vannak kötve, ezen belül is egy 8 x 4-es tömbben helyezkednek el. Az előző generációhoz viszonyítva az új AIE Tile-ok kétszer több feldolgozóegységet kínálnak, így megduplázódott a MAC operációra vonatkozó kapacitás, illetve a részegységen belüli SRAM memória 1,6-szor nagyobb lett. Minden négyes AIE Tile blokkhoz tartozik egy-egy Mem Tile, amely biztosítja a DMA-t, illetve a részegységen kívüli kommunikációs lehetőségeket.

A hatékonyság növelése érdekében az energiaellátás nyolcas blokkok szintjén van vezérelve, így egy ekkora blokk akár le is kapcsolható, ha épp nincs szükség a feldolgozók munkájára.

A teljes részegység maximum nyolc konkurens, teljesen izolált spatiális munkafolyamatot támogat, vagyis effektíve nyolc részre particionálható manuálisan. Ez azért fontos, mert így egyszerre akár nyolc AI alkalmazás is futhat a hardveren, de persze itt számolni kell ezek terhelésével. Általában a hangfeldolgozással kapcsolatos feladatok a legkedvezőbbek, azokból bőven vállalható egymás mellett nyolc munkamenet, de például egy nagy nyelvi modell lokális futtatása azért igényli a teljes NPU-t.

Az AMD szerint az XDNA 2-es, órajeltől függően 50-55 TOPS-os teljesítményre képes NPU-juk ötször gyorsabb az előző generációs, XDNA dizájnnál, miközben kétszeresére nőtt hatékonysága is.

[+]

Az XDNA 2 dizájn egyik sarkalatos pontja, hogy bevezet egy nagyon érdekes adattípust, ami Block FP16 névre hallgat. Ez a hagyományos FP16-os adattípushoz viszonyítva, nyolc elemre levetítve, 128 helyett csak 72 bitnyi információt dolgoz fel, mivel a 8 bites exponens a nyolc elem szintjén közös, vagyis azt elég egyszer tárolni, az eltérő mantisszát pedig lehet nyolcszor. Ezzel nagyjából hozható a 16 bites lebegőpontos feldolgozáshoz hasonló pontosság, miközben a feldolgozás sebessége a 8 bites lebegőpontos operációk szintjéhez lesz közel.


[+]

Az AMD a Strix Point SoC APU-hoz bevezeti a Ryzen AI szoftverkörnyezetet is, ami nyílt forráskódú platformokra épít (PyTorch, TensorFlow, ONNX), miközben a szoftveres háttér (Unified ONNX EP) teljesen egyésgesített a CPU, az IGP és az NPU között. Ez gyakorlatilag nagyon egyszerűvé teszi a fejlesztőknek a Ryzen AI 300-as rendszerchipek teljes kihasználhatóságát, hiszen kevés extra munka mellett érhető el az összes hasznosítható részegység.

A cikk még nem ért véget, kérlek, lapozz!

Azóta történt

Előzmények