Az AMD az idei CES-en prezentálta a Strix Halo kódnevű platformot, amely bemutatásakor az egyetlen olyan PC-s dizájnnak számított, amely lokálisan volt képes futtatni az Llama 3.1 70B-Q4 LLM-et, vagyis egy 70 milliárd paraméteres nagy nyelvi modellt.
Hirdetés
Azóta a vállalat a VGM, vagyis a Variable Graphics Memory funkció frissítésén dolgozott, amely eredetileg az elmúlt év szeptemberében mutatkozott be, és az új verziójával jobban hasznosítható a maximum beállítható 96 GB-os memóriakapacitás.
Az AMD a fenti videóban demonstrálta is, hogy a Ryzen AI Max+ 395 az érkező, AMD Software 25.8.1-es meghajtóval miképpen működik az LM Studio programot futtatva, a Llama 4 Scout 109B modellel. A vállalat szerint másodpercenként akár 15 tokenes sebesség is elérhető, köszönhetően annak, hogy az említett LLM esetében csak 17 milliárd paraméternek kell aktívnak lennie, noha a 128 GB-os rendszermemóriába muszáj betölteni a teljes, 109 milliárd paramétert.
A szóban forgó a szoftveres fejlesztéssel a Strix Halo dizájnok a Windows PC-k között elsőként képesek a Llama 4 Scout 109B modell lokális futtatására Vision és MCP támogatással.
Az AMD a modell kontextusméretére is fókuszál, ami részben a válasz hosszával kapcsolatos. Az LM Studio alapértelmezett kontextusa 4096 tokenre van beállítva, és egy szó a legtöbb esetben egy-három tokennek felel meg. Persze ez sok dologtól függ, így nincs általános érvényű szabály, például az is számít, hogy milyen nyelven válaszol a modell, stb.
Az LLM-ek lokális futtatása mellett a nagy kontextushossz támogatása is egyre komolyabb igény, így az AMD fentebb említett platformja a Llama 4 Scout 109B modellt akár 256 000-es kontextushossz mellett képes támogatni (Flash Attention BE, KV Cache Q8). Ez lehetővé teszi, hogy hatalmas mennyiségű token maradjon a kontextuson belül, így a nagyobb méretű munkafolyamatok is végrehajthatók. A vállalat példaként egy SEC EDGAR MCP demót prezentált, ahol az LLM az AMD legutóbbi negyedéves jelentését tölti le és foglalja össze. Az egész folyamat 19 642 token kontextusban tartását igényelte, ami az alapértelmezett, 4096 tokenes korláttal nem lenne kivitelezhető.
Az AMD az érkező eszközillesztőnek kiadta az előzetes verzióját, amely letölthető az alábbi oldalon keresztül, és telepíthető is a Ryzen AI Max+ 395-re.