Futtasd a legújabb Qwen 3.6 27B AI modellt teljesen ingyen, lokálisan a saját gépeden a llama.cpp segítségével! Ebben a videóban bemutatom, hogyan gyorsítja fel a generálást az egyik legizgalmasabb újítás az MTP (Multi Token Prediction) technológia, amellyel elképesztő token/másodperc sebességet érhetsz el. A hagyományos Speculative Decodinggal ellentétben itt nincs szükség külön apró "draft" modellre. A fő modell saját plusz belső rétegeit használja a következő tokenek megjósolásához, ami drasztikusan gyorsítja a generálást.
A llama.cpp legújabb verziójába végre bekerült a várva várt MTP támogatás, ami lehetővé teszi, hogy a nyelvi modellek egyszerre több tokent is megjósoljanak előre. Ez az új funkció akár 1.4-2-szeresére is felgyorsíthatja a következtetést (inference) anélkül, hogy a modell pontossága csökkenne. A videóban részletesen végigmegyünk a futtatás beállításain, a legújabb paramétereken (mint például a `--spec-type draft-mtp` és a `--spec-draft-n-max`), valamint azon, hogy miként konfiguráljuk az intelligens Hermes Agentet a lokális szerverünkhöz.
Láthatjátok a gyakorlatban is, ahogy a gépem teljesen önállóan kutat az interneten, megtervez, majd legenerál egy videót Hyperframes használatával, miközben az én saját hangomat klónozza az Omnivoice segítségével. Bár a bonyolult munkafolyamat során adódtak technikai kihívások – például a memória elfogyása a 24 GB-os videókártyán a zene generálásánál, vagy az agent loopba kerülése –, megmutatom, hogyan lehet manuálisan beavatkozni (például a "steer" paranccsal) és kijavítani a felmerülő hibákat.
------------------------------
## 🚀 MTP és Speculatív beállítások
* --spec-type draft-mtp: Bekapcsolja az MTP-alapú gyorsítást. Ez mondja meg a szoftvernek, hogy ne külső modellt, hanem a fő modell MTP rétegeit használja.
* --spec-draft-n-max 2: Meghatározza, hány tokent próbáljon meg egyszerre "előre kitalálni" a modell. A 2-es érték általában a legstabilabb sebésségnövekedést adja.
* --spec-draft-ngl 99: Felküldi az MTP rétegeket is a GPU-ra. A 99 egy magas szám, ami biztosítja, hogy minden réteg a VRAM-ba kerüljön.
* --spec-draft-p-min 0.75: Egy biztonsági szűrő. Csak akkor fogadja el a megjósolt tokent, ha a valószínűsége eléri ezt a szintet. Segít elkerülni a hibás jóslatok miatti lassulást.
## 🧠 Memória és Kontextus (VRAM optimalizálás)
* --ctx-size 64000: A teljes szövegablak mérete. Ez határozza meg, mennyi korábbi üzenetre emlékszik a modell.
* --cache-type-k q4_0 és --cache-type-v q4_0: A KV cache tömörítése. Ahelyett, hogy 16-bites memóriát használna, 4-bitre szűkíti, így sokkal több kontextus fér el a VRAM-ban anélkül, hogy elfogyna a hely.
* --flash-attn on: Bekapcsolja a Flash Attention-t. Ez egy matematikai trükk, ami gyorsabbá teszi a figyelmi mechanizmust és csökkenti a memóriahasználatot. [1]
## ⚡ Teljesítmény és Párhuzamosság
* -ngl 99: (GPU Layers) A fő modell összes rétegét a videókártyára mozgatja.
* -b 1024 és -ub 1024: A batch size (kötegelt feldolgozás). Meghatározza, hány tokent dolgozzon fel egyszerre a GPU. Az 1024 ideális egyensúly a sebesség és a memória között.
* --parallel 1 és -np 1: A párhuzamos kérések száma. Itt 1 felhasználóra van korlátozva a szerver.
## 🎨 Mintavételezés (Kreativitás szabályozása)
* --temp 1: Alapvető véletlenszerűség. Az 1-es érték egy természetes egyensúly.
* --top-p 0.95 és --top-k 20: Szűkítik a választható szavak listáját a legvalószínűbbekre, hogy ne legyen zagyvaság a válasz.
* --min-p 0.0: Kikapcsolt állapot. Ha magasabbra vennéd (pl. 0.05), tovább szűrné a zajt.
* --presence-penalty 1.5: Arra kényszeríti a modellt, hogy új témákról beszéljen, ne ismételje önmagát.
*Indítás*
@echo off
cd /d "d:\AI\llama.cpp\build\bin\Release"
llama-server.exe ^
-m "d:\AI\llama.cpp\Qwen3.6-27B-IQ4_NL.gguf" ^
--spec-type draft-mtp ^
--spec-draft-n-max 2 ^
--parallel 1 ^
--spec-draft-ngl 99 ^
--spec-draft-p-min 0.75 ^
--ctx-size 64000 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
-b 1024 ^
-ub 1024 ^
-ngl 99 ^
--flash-attn on ^
--temp 1 ^
--top-p 0.95 ^
--presence-penalty 1.5 ^
--top-k 20 ^
--min-p 0.0 ^
--repeat_penalty 1.0 ^
--no-mmproj ^
--host 0.0.0.0 ^
--port 8080
pause
*Buildelés*
Ne sima Command Promptból indítsd, hanem Start menüben keresd meg:
x64 Native Tools Command Prompt for VS 2022
cmake -S . -B build ^
-G "Visual Studio 17 2022" ^
-A x64 ^
-T cuda=13.1 ^
-DGGML_CUDA=ON
cmake --build build --config Release -j
*Hermes Agent bekötés*
Lekérdjük WSL alatt a Windows host IP címét
ip route show | grep -i default | awk '{ print $3 }'
http://ipcim:8080/v1
*Linkek*
Hermes Agent: https://github.com/NousResearch/hermes-agent
LLaMA.cpp: https://github.com/ggml-org/llama.cpp
PR 22673: https://github.com/ggml-org/llama.cpp/pull/22673
Unsloth Qwen 3.6: https://unsloth.ai/docs/models/qwen3.6
Hugging Face unsloth/Qwen3.6-27B-MTP-GGUF: https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF
Itt az MTP: kétszer gyorsabb lokális AI a Qwen 3.6-tal!
-
Írta:
YouTube
Hirdetés
Aktív témák
- Végre véglegesek az AV2 kodek specifikációi
- Magga: PLEX: multimédia az egész lakásban
- Android alkalmazások - szoftver kibeszélő topik
- Le Mans Ultimate
- NBA és kosárlabda topic
- One otthoni szolgáltatások (TV, internet, telefon)
- LEGO klub
- A fociról könnyedén, egy baráti társaságban
- Autós topik
- exHWSW - Értünk mindenhez IS
- További aktív témák...