Hirdetés

Bővíti a Strix Halo kódnevű dizájn képességeit az AMD

Egy érkező új meghajtóval lehetőség lesz az igen nagy LLM-ek lokális futtatására is.

Írta: Abu85
Forrás: PROHARDVER!
2025-07-31 11:11

Az AMD az idei CES-en prezentálta a Strix Halo kódnevű platformot, amely bemutatásakor az egyetlen olyan PC-s dizájnnak számított, amely lokálisan volt képes futtatni az Llama 3.1 70B-Q4 LLM-et, vagyis egy 70 milliárd paraméteres nagy nyelvi modellt.

Hirdetés

Azóta a vállalat a VGM, vagyis a Variable Graphics Memory funkció frissítésén dolgozott, amely eredetileg az elmúlt év szeptemberében mutatkozott be, és az új verziójával jobban hasznosítható a maximum beállítható 96 GB-os memóriakapacitás.

Az AMD a fenti videóban demonstrálta is, hogy a Ryzen AI Max+ 395 az érkező, AMD Software 25.8.1-es meghajtóval miképpen működik az LM Studio programot futtatva, a Llama 4 Scout 109B modellel. A vállalat szerint másodpercenként akár 15 tokenes sebesség is elérhető, köszönhetően annak, hogy az említett LLM esetében csak 17 milliárd paraméternek kell aktívnak lennie, noha a 128 GB-os rendszermemóriába muszáj betölteni a teljes, 109 milliárd paramétert.

A szóban forgó a szoftveres fejlesztéssel a Strix Halo dizájnok a Windows PC-k között elsőként képesek a Llama 4 Scout 109B modell lokális futtatására Vision és MCP támogatással.

[+]

Az AMD a modell kontextusméretére is fókuszál, ami részben a válasz hosszával kapcsolatos. Az LM Studio alapértelmezett kontextusa 4096 tokenre van beállítva, és egy szó a legtöbb esetben egy-három tokennek felel meg. Persze ez sok dologtól függ, így nincs általános érvényű szabály, például az is számít, hogy milyen nyelven válaszol a modell, stb.

Az LLM-ek lokális futtatása mellett a nagy kontextushossz támogatása is egyre komolyabb igény, így az AMD fentebb említett platformja a Llama 4 Scout 109B modellt akár 256 000-es kontextushossz mellett képes támogatni (Flash Attention BE, KV Cache Q8). Ez lehetővé teszi, hogy hatalmas mennyiségű token maradjon a kontextuson belül, így a nagyobb méretű munkafolyamatok is végrehajthatók. A vállalat példaként egy SEC EDGAR MCP demót prezentált, ahol az LLM az AMD legutóbbi negyedéves jelentését tölti le és foglalja össze. Az egész folyamat 19 642 token kontextusban tartását igényelte, ami az alapértelmezett, 4096 tokenes korláttal nem lenne kivitelezhető.

Az AMD az érkező eszközillesztőnek kiadta az előzetes verzióját, amely letölthető az alábbi oldalon keresztül, és telepíthető is a Ryzen AI Max+ 395-re.

Hozzászólások (26)

Kapcsolódó cégek:
AMD

Azóta történt

Dedikált NPU-t tervezne az AMD?

A Qualcomm már meglépte ezt, így könnyen lehet, hogy új piac születik.
Véletlenül kikerült az FSR 4 forráskódja a GitHubra

Ez azonban nem számít, az eredeti licenc birtokában a már letöltött kód szabadon használható.
Ez a kocka tényleg izgalmas lett

Az abee Strix Halo-ra épülő különleges, apró PC-jének kocka alakú házában integrált vízhűtés gondoskodik a hardver hűvösen tartásáról.
CES 2026: felcsavarta az AI-t az AMD, de örülhetnek a játékosok is

Egy kifejezetten játékokhoz tervezett új Ryzen processzor mellett a legtöbb érdekesség a mobil vonalat érinti.

Előzmények

Ryzen AI-ra szabott lokális AI chatprogrammal jelentkezett az AMD

Ráaádsul a GAIA nyílt forráskódú is, így szabad utat ad a közösség fejlesztés előtt.
Beveti az AI-t az AMD nagy meghajtófrissítése

A képgenerálás is új szintet üt majd meg, ami jobb képminőséget és sebességet eredményez.
Megreformálja az otthoni AI-t a Framework Desktop

Futtatni kellene a 671 milliárd paraméteres DeepSeek R1-et? Nem probléma!
Rengeteg memóriával kínálható meg az AMD érkező csúcs-IGP-je

A Ryzen AI Max sorozat az Apple Max jelzésű rendszerchipjei ellen készül.