llama.cpp WebUI: nagy nyelvi modellek futtatása lokálisan, gyorsan

Írta: YouTube
2025-11-19 18:07

A llama.cpp egy nagy nyelvi modellekhez készült, nagy teljesítményű C/C++ inferencia-runtime, amely minimális függőségekkel, mégis széles hardvertámogatással (CPU, NVIDIA/AMD GPU, Apple Silicon, Vulkan, SYCL stb.) teszi lehetővé LLM-ek futtatását lokálisan és felhőben.

A projekt fő célja, hogy state-of-the-art teljesítményt nyújtson kvantizált (akár 1.5–8 bites) modellekkel, miközben a memórialábnyom alacsony marad, így „desktop friendly” méretben is futtathatók több tízmilliárd paraméteres modellek.

Számos modern modellcsaládot támogat (LLaMA 1–3, Mistral, Mixtral, Gemma, Phi, Qwen, Falcon, stb.), egységes GGUF formátumon keresztül, és a ggml könyvtár fő kísérleti játszótere új optimalizációkhoz.

CLI-eszközöket (llama-cli, llama-server) és OpenAI-kompatibilis REST API-t biztosít, így könnyen integrálható meglévő alkalmazásokba, mikroszervizekbe vagy fejlesztői eszközökbe.

*Futtatás*
llama-server -hf unsloth/gemma-3-4b-it-GGUF --alias "Gemma 3 4B Instruction" --jinja -c 4096 --host 127.0.0.1 --port 8033 -ngl 99

*Linkek*
GitHub llama.cpp: https://github.com/ggml-org/llama.cpp
ibm-granite/granite-4.0-h-tiny-GGUF: https://huggingface.co/ibm-granite/granite-4.0-h-tiny-GGUF
ibm-granite/granite-4.0-h-micro-GGUF: https://huggingface.co/ibm-granite/granite-4.0-h-micro-GGUF
unsloth/gemma-3-4b-it-GGUF: https://huggingface.co/unsloth/gemma-3-4b-it-GGUF
Open WebUI: https://docs.openwebui.com/
Ollama: https://ollama.com/
LM Studio: https://lmstudio.ai/
Claude: https://claude.ai/
Google Gemini: https://gemini.google.com/
OpenAI ChatGPT: https://chatgpt.com/

Ez a videó bemutatja a mesterséges intelligencia alkalmazását. Az AI (mesterséges intelligencia) rengeteg területen könnyíti és segíti az életünket.

Hozzászólások

Olcsó vs. drága egér: melyiknél érzed meg igazán a különbséget?

Total AI

Comfy Cloud: ComfyUI a felhőben

llama.cpp WebUI: nagy nyelvi modellek futtatása lokálisan, gyorsan

Olcsó vs. drága egér: melyiknél érzed meg igazán a különbséget?

Itt a Microsoft szörnyprocesszora, ami 132 maggal tarolhatja le a felhőt

Az Inteltől – nem csak az Intelnek

Comfy Cloud: ComfyUI a felhőben

Qwen3-Max-Thinking: 1 billió érv!

Többet ésszel, mint klisével: mindent felforgat a Gemini 3