Hirdetés
Az Alibaba Cloud Qwen csapata bejelentette a Qwen nagy nyelvi modell (LLM) sorozat legújabb generációját, a Qwen3-at. A sorozat magában foglal két nyílt forráskódú Mixture-of-Experts (MoE) modellt (a nagyméretű Qwen3-235B-A22B és a kisebb Qwen3-30B-A3B), valamint hagyományos modellt, amelyek 0.6 milliárd és 32 milliárd paraméter közöttiek. A modellek Apache 2.0 licenc alatt érhetők el, ami a nyílt súlyok egyik jelentős előnye.
*Legyél Te is Tagja az Mp3Pintyo csatornának*
https://www.youtube.com/channel/UC-3YkVvPQbZiApqrRXEOaPg/join
*DISCORD*
Mp3Pintyo szerver: https://discord.gg/NBgUuVDURG
*Támogatás*
Patreon: https://www.patreon.com/mp3pintyo
*Linkek*
Qwen3 blog: https://qwenlm.github.io/blog/qwen3/
GitHub: https://github.com/QwenLM/Qwen3
Hugging Face modellek: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
LM Studio: https://lmstudio.ai/
Qwen Chat: https://chat.qwen.ai/
Artificial Analysis: https://artificialanalysis.ai/
Megújult a Prohardver: https://prohardver.hu/hir/megujult_a_prohardver_2.html
Twitter bejelentés: https://x.com/Alibaba_Qwen/status/1916962087676612998
Miért jó a Qwen3 modell (pozitívumok):
Versenyképes vagy jobb teljesítmény: A Qwen3-235B-A22B modell kiemelkedő eredményeket ért el a kódolás, matematika, általános képességek és érvelés benchmarkjaiban, felülmúlva olyan top-tier modelleket, mint a DeepSeek-R1, Grok-3, Gemini 2.5 Pro, OpenAI o3-mini és o1. Még a kisebb MoE modell, a Qwen3-30B-A3B is jelentősen túlszárnyalja elődeit, és a kicsi Qwen3-4B modell is felér a Qwen2.5-72B-Instruct teljesítményével.
Nyílt forráskódú és nyílt súlyú: Az Apache 2.0 licenc lehetővé teszi a modellek szabad hozzáférését és használatát. Olyan platformokon is elérhető mint a Hugging Face, ModelScope és Kaggle, és számos eszközzel (Ollama, LMStudio, llama.cpp) helyben is futtathatóak.
Hibrid gondolkodási módok: Egyedülálló módon támogatja a problémamentes váltást a "gondolkodó" mód (összetett logikai érvelés, matematika, kódolás) és a "nem gondolkodó" mód (hatékony, általános csevegés) között. Ez rugalmasságot és hatékony erőforrás-felhasználást tesz lehetővé a feladat komplexitásától függően. A felhasználók szabályozhatják a gondolkodásra fordított "költségvetést".
Ágens képességek és eszközhasználat: Kiváló szakértelemmel rendelkezik az ágens képességek terén, lehetővé téve a precíz integrációt külső eszközökkel mindkét gondolkodási módban. Támogatja az MCP-t (Model Context Protocol). Képes eszközöket használni akár a gondolkodási folyamat közben is.
Hatékony architektúra: A MoE modellek a kevesebb aktív paraméter (pl. a 30B-A3B modellnél 3.3 milliárd) miatt jelentős megtakarítást eredményeznek a betanítási és következtetési költségekben. A kisebb modellek jól használhatóak erőforrás-korlátos környezetekben vagy helyi futtatás esetén.
Nyelvi támogatás: Támogat több mint 100 nyelvet és dialektust, egészen pontosan 119 nyelvet és dialektust. Nagyon jó képességekkel rendelkezik a többnyelvű utasításkövetés és fordítás terén. Hosszú kontextus kezelése: Natívan támogatja a 32,768 token kontextushosszt. A YaRN (Yet another RoPE Next) módszerrel 131,072 tokenig is validálták a teljesítményét.