Az MTP (Multi-Token Prediction) egy olyan technológia, amely lehetővé teszi a mesterséges intelligencia modellek számára, hogy egyszerre ne csak egy, hanem több szót (tokent) jósoljanak meg előre. Ennek köszönhetően a szöveggenerálás jelentősen, akár kétszer is gyorsabbá válhat anélkül, hogy a válaszok minősége romlana.
Hogy megértsd, hogyan működik, először nézzük meg a hagyományos módszert. Általában egy nyelvi modell (mint például a Qwen3.6) lépésről lépésre halad: **kitalálja a következő szót/tokent, leírja, majd elkezdi kitalálni az azután következőt**. Ez a folyamat pontos, de az állandó várakozás miatt lassú.
Ezzel szemben az *MTP apró, gyors "piszkozatkészítő" (draft) rétegeket épít a fő modellre*. Ezek a kis kiegészítő rétegek mintegy előre szaladnak, és egyszerre megpróbálják megtippelni a következő néhány (például 3) szót. Ahelyett, hogy a nagy, lassú főmodell minden egyes szót teljesen az alapoktól hozna létre, egyszerűen csak rápillant ezekre a gyors tippekre. Ha helyesnek ítéli őket, egyetlen lépésben elfogadja mind a hármat. A Qwen3.6 modell MTP verziója például pontosan 3 ilyen extra réteggel rendelkezik, így egyszerre ennyivel tud előre gondolkodni.
Gondolj rá úgy, mint az okostelefonod prediktív szövegbevitelére: ahelyett, hogy minden betűt és szót magadnak kellene leírnod, a telefon felajánl egy egész mondatrészt, amit neked csak egyetlen gombnyomással jóvá kell hagynod. A főmodell itt ugyanígy ellenőrző tanárként működik, aki csak rábólint a gyorsan dolgozó segédek munkájára.
*A legnagyobb előnye a hatékonyság és a sebesség:*
- Mivel ezek a "tippelő" rétegek nagyon kicsik a fő modellhez képest (kevesebb mint 10% extra memóriát igényelnek), alig foglalnak plusz helyet a számítógép memóriájában.
- A tesztek alapján **közel kétszeres gyorsulást lehet elérni vele** (például 22 szóról 42 szóra nőhet a másodpercenként legenerált szöveg sebessége).
- A gyors rétegek által javasolt szavaknak átlagosan a 70-75%-át a főmodell jónak találja és elfogadja, így rengeteg időt spórol.
*Telepítés*
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin
git checkout master
git reset --hard 5207d120e
git merge --no-ff pr-22673 -m "Merge [PR #22673](https://github.com/ggml-org/llama.cpp/pull/22673): llama + spec: MTP Support"
Windows alatt a llama.cpp CUDA buildhez nem elég csak a CUDA Toolkit.
Visual Studio 2022
Visual Studio Installerben: Desktop development with C++
C++ CMake Tools for Windows
Git for Windows
CMake
x64 Native Tools Command Prompt for VS 2022
NVIDIA CUDA-képes videókártya
Friss NVIDIA driver
NVIDIA CUDA Toolkit
Visual Studio CUDA Integration
x64 build környezet
Ne sima Command Promptból indítsd, hanem Start menüben keresd meg:
x64 Native Tools Command Prompt for VS 2022
cd /d d:\AI\llama.cpp (vagy ahova lementetted)
cmake -S . -B build ^
-G "Visual Studio 17 2022" ^
-A x64 ^
-T cuda=13.1 ^
-DGGML_CUDA=ON
cmake --build build --config Release -j
*Linkek*
Hugging Face Qwen/Qwen3.6-35B-A3B: https://huggingface.co/Qwen/Qwen3.6-35B-A3B
Hugging Face Qwen/Qwen3.6-27B: https://huggingface.co/Qwen/Qwen3.6-27B
HF havenoammo/Qwen3.6-27B-MTP-UD-GGUF: https://huggingface.co/havenoammo/Qwen3.6-27B-MTP-UD-GGUF
llama.cpp PR #22673: https://github.com/ggml-org/llama.cpp/pull/22673
Git: https://git-scm.com/
Ez a videó bemutatja a mesterséges intelligencia alkalmazását. Az AI (mesterséges intelligencia) rengeteg területen könnyíti és segíti az életünket.
MTP: kétszeresére gyorsul a helyi AI modellek futtatása!
-
Írta:
YouTube
