DeepSeek-V3.2-Exp, a legújabb kísérleti modell

A DeepSeek-V3.2-Exp a DeepSeek legújabb kísérleti modellje, amely a DeepSeek Sparse Attention (DSA) mechanizmust vezeti be a hosszú kontextusú feldolgozás hatékonyságának drámai növelése érdekében. Ez az innováció lehetővé teszi a modell számára, hogy megőrizze a V3.1-Terminus teljesítményét, miközben jelentősen, több mint 50%-kal csökkenti az API költségeket és növeli a számítási sebességet.

A DeepSeek-V3.2-Exp egy kísérleti nagyméretű nyelvi modell (LLM), amelyet a DeepSeek AI adott ki, mint a V3.1-Terminus utódját. Ez a kiadás a vállalat következő generációs architektúrája felé tett köztes lépésként szolgál, célja a DeepSeek Sparse Attention (DSA) tesztelése és validálása.

A modell lényegében a *V3.1-Terminus* alapjaira épül, megőrizve annak 671B paraméterét, de a figyelem (attention) mechanizmust lecserélték. A tréning konfigurációja, hiperparaméterei és adathalmaz receptjei szinte megegyeznek a V3.1-Terminuséval, így a teljesítménybeli különbségek nagy valószínűséggel a DSA-nak köszönhetőek.

#### 1. Fine-Grained Sparse Attention (Finom szemcsés ritka figyelem)
A hagyományos Transzformerek minden tokenpárra figyelnek, ami számítási komplexitást eredményez. A DSA ezen próbál változtatni azáltal, hogy korlátozza a tokenek közötti kommunikációt.
A DSA az első implementációja a Fine-Grained Sparse Attention-nek. Ez különösen hatékony hosszú dokumentumoknál, ahol csak egy maroknyi token releváns egy adott helyi döntéshez.

#### 2. Költségcsökkentés és hatékonysági előnyök
A DSA révén elért hatékonyságnövelés jelentős költségcsökkenést eredményezett az API használatban.
*API árazás:* Az API ára több mint 50%-kal csökkent. Például a V3.1 bemeneti tokenenkénti ára $0.56/M és kimeneti tokenenkénti ára $1.68/M volt, míg a V3.2-Exp esetében ezek az árak $0.28/M és $0.42/M lettek.
*Gyorsulás:* A DeepSeek jelentős javulásokat tapasztalt hosszú kontextusú forgatókönyvek esetén: a következtetési sebesség ~2-3x-os javulása, a memóriaigény ~30-40%-os csökkenése, és a betanítási hatékonyság ~50%-os javulása.

#### 3. Nyílt forráskódú támogatás
A modell nyílt forráskódú (MIT licenc alatt). DeepSeek több kernel implementációt is közzétett

### Miben jó a DeepSeek-V3.2-Exp?

A V3.2-Exp összességében megőrizte a V3.1-Terminus teljesítményét, néhány területen javulást mutatva:

*Kódolás és Ágens Eszközhasználat (Agentic Tool Use):* A legnagyobb meglepetést a *Codeforces* benchmarkon elért +75 pontos javulás jelentette, ami potenciálisan azt jelzi, hogy a DSA segíthet a strukturált, hosszú fájlokon alapuló érvelésben, például a kódolásban.
*BrowseComp-zh:* +2.9 pont.
*BrowseComp:* +1.6 pont.
*Terminal-bench:* +1.0 pont.
*Matematikai Érvelés:* Az **AIME 2025** pontszáma +0.9-cel emelkedett.
*Általános Paritás:* Számos metrika gyakorlatilag változatlan maradt (pl. MMLU-Pro, SimpleQA, SWE multilingual), ami azt jelzi, hogy a DSA nem rontotta le a modell általános teljesítményét.
*Hosszú Kontextus Hatékonyság:* A modell megőrzi teljesítményét, miközben jelentősen csökkenti a számítási költségeket és növeli a sebességet hosszú szekvenciákon.

### Miben nem jó a DeepSeek-V3.2-Exp?

Mivel a V3.2-Exp kísérleti modell, mérhető visszaesések tapasztalhatók bizonyos feladatokban.

*Komplex Érvelési Feladatok Visszaesése:*
A visszaesések oka lehet a sparsity pattern nem megfelelő illeszkedése, különösen azokban a feladatokban, amelyek ritka, távoli tokenek közötti érvelést igényelnek (például matematikai versenyfeladatok). Ha a lekérdezésenkénti maszk kihagy kulcsfontosságú távoli előfeltételeket, az teljesítményvesztést okoz.

*Linkek*
GitHub DeepSeek-V3.2-Exp: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp
Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
PDF: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
API docs: https://api-docs.deepseek.com/news/news250929
Native Sparse Attention: https://arxiv.org/pdf/2502.11089
Dev.to: https://dev.to/czmilo/deepseek-v32-exp-complete-analysis-2025-ai-model-breakthrough-and-in-depth-analysis-of-sparse-3gcl
Medium: https://medium.com/data-science-in-your-pocket/deepseek-v3-2-released-deeepseeks-new-model-3a4940d21581
vLLM: https://docs.vllm.ai/projects/recipes/en/latest/DeepSeek/DeepSeek-V3_2-Exp.html#introduction
OpenRouter: https://openrouter.ai/deepseek/deepseek-v3.2-exp