Microsoft Phi-4 Reasoning: a 14B érvelő modell, ami nekimegy a nagyoknak!

A Microsoft Phi-4-reasoning egy 14 milliárd paraméteres nyelvi modell, amelyet a Phi-4 alapmodellből képeztek tovább, kifejezetten az összetett érvelési feladatokhoz. Ezt felügyelt finomhangolással (SFT) és utána egy rövid fázisú eredmény-alapú megerősítő tanulással (RL) érték el.

A fő különbség és javulás a Phi-4-hez képest a következő:
* A Phi-4-reasoning olyan részletes gondolatmeneteket generál, amelyek hatékonyan használják ki a következtetési idejű számítást.
* A képzés gondosan összeállított adatkészleten történt, amely tartalmazza az o3-mini által generált, magas minőségű érvelési láncokat.
* Jelentős teljesítménybeli javulást mutat a Phi-4-hez képest számos érvelési feladatban, beleértve a matematikai és tudományos érvelést, a kódolást, az algoritmikus problémamegoldást, a tervezést és a térbeli megértést.
* Több mint 50 százalékponttal javult a matematikai benchmarkokon és több mint 25 százalékponttal a kódolási benchmarkokon a Phi-4-hez képest.
* Nem elhanyagolható átvitelt mutat a fejlesztésekből az általános célú benchmarkokra is, például az utasításkövetésre és a hosszú kontextusú kérdés-válaszadásra.
* Képes strukturált gondolatmeneteket generálni, ellentétben az alap Phi-4 modellel.

A Phi-4-reasoning-plus változat, amely a Phi-4-reasoning megerősítő tanulással továbbfejlesztett változata, még magasabb teljesítményt ér el, különösen a matematikában, hosszabb érvelési láncok generálásával.

*Linkek*
Showcasing Phi-4-Reasoning: https://techcommunity.microsoft.com/blog/educatordeveloperblog/showcasing-phi-4-reasoning-a-game-changer-for-ai-developers/4409892
Phi-4-reasoning Technical Report: https://arxiv.org/pdf/2504.21318
Hugging Face Phi-4-reasoning: https://huggingface.co/microsoft/Phi-4-reasoning
Hugging Face Phi-4-reasoning-plus: https://huggingface.co/microsoft/Phi-4-reasoning-plus
Ollama Phi-4-reasoning: https://ollama.com/library/phi4-reasoning
LM Studio: https://lmstudio.ai/
OpenRouter: https://openrouter.ai/