llama.cpp WebUI: nagy nyelvi modellek futtatása lokálisan, gyorsan

A llama.cpp egy nagy nyelvi modellekhez készült, nagy teljesítményű C/C++ inferencia-runtime, amely minimális függőségekkel, mégis széles hardvertámogatással (CPU, NVIDIA/AMD GPU, Apple Silicon, Vulkan, SYCL stb.) teszi lehetővé LLM-ek futtatását lokálisan és felhőben.

A projekt fő célja, hogy state-of-the-art teljesítményt nyújtson kvantizált (akár 1.5–8 bites) modellekkel, miközben a memórialábnyom alacsony marad, így „desktop friendly” méretben is futtathatók több tízmilliárd paraméteres modellek.

Számos modern modellcsaládot támogat (LLaMA 1–3, Mistral, Mixtral, Gemma, Phi, Qwen, Falcon, stb.), egységes GGUF formátumon keresztül, és a ggml könyvtár fő kísérleti játszótere új optimalizációkhoz.

CLI-eszközöket (llama-cli, llama-server) és OpenAI-kompatibilis REST API-t biztosít, így könnyen integrálható meglévő alkalmazásokba, mikroszervizekbe vagy fejlesztői eszközökbe.

*Futtatás*
llama-server -hf unsloth/gemma-3-4b-it-GGUF --alias "Gemma 3 4B Instruction" --jinja -c 4096 --host 127.0.0.1 --port 8033 -ngl 99

*Linkek*
GitHub llama.cpp: https://github.com/ggml-org/llama.cpp
ibm-granite/granite-4.0-h-tiny-GGUF: https://huggingface.co/ibm-granite/granite-4.0-h-tiny-GGUF
ibm-granite/granite-4.0-h-micro-GGUF: https://huggingface.co/ibm-granite/granite-4.0-h-micro-GGUF
unsloth/gemma-3-4b-it-GGUF: https://huggingface.co/unsloth/gemma-3-4b-it-GGUF
Open WebUI: https://docs.openwebui.com/
Ollama: https://ollama.com/
LM Studio: https://lmstudio.ai/
Claude: https://claude.ai/
Google Gemini: https://gemini.google.com/
OpenAI ChatGPT: https://chatgpt.com/

Ez a videó bemutatja a mesterséges intelligencia alkalmazását. Az AI (mesterséges intelligencia) rengeteg területen könnyíti és segíti az életünket.