llama.cpp ist das Projekt, das lokale KI auf Consumer-Hardware möglich gemacht hat. Georgi Gerganov startete es im März 2023 als C/C++-Port von Metas LLaMA-Modell mit einem klaren Ziel: LLMs ohne Python, ohne Cloud und ohne teure Profi-Hardware ausführen. Heute ist llama.cpp mit über 101.000 GitHub Stars das technische Fundament, auf dem Ollama, LM Studio und GPT4All aufbauen. Wer maximale Kontrolle über Inferenz-Parameter braucht, spezielle Hardware wie AMD-GPUs nutzt oder neue GGUF-Modelle sofort testen will, greift direkt zu llama.cpp.

Wichtigste Funktionen

GGUF-Format: llama.cpp hat das GGUF-Format als Standard für quantisierte Modelle etabliert. Alle gängigen Quantisierungsstufen werden unterstützt: Q2_K bis Q8_0, mit Q4_K_M als bewährtem Kompromiss aus Qualität und Speicherverbrauch.
Breite GPU-Backend-Unterstützung: CUDA (NVIDIA), HIP/ROCm (AMD), Vulkan (plattformübergreifend, ältere Karten), Metal (Apple Silicon), SYCL (Intel), OpenVINO (Edge), CANN (Huawei Ascend) und OpenCL. Gerade für AMD-GPUs ist llama.cpp oft die bessere Wahl als Ollama.
llama-server: OpenAI-kompatible HTTP-API mit Streaming, parallelen Slots, Embedding-Support und konfigurierbarem KV-Cache. Modelle können direkt von Hugging Face geladen werden. Die eingebaute WebUI ermöglicht Chat direkt im Browser, ohne externe Tools.
Multimodal: Unterstützung für Vision-Language-Modelle direkt im Server. Natives NVFP4-Format für neuere NVIDIA-GPUs in Zusammenarbeit mit NVIDIA.
Flash Attention: Funktioniert seit kurzem auch mit Head Dimension 512, was die GPU-Beschleunigung auf größere Modellkonfigurationen ausweitet. Das verbessert die Performance bei Modellen mit langen Kontexten deutlich.
Editor-Plugins: Fill-In-the-Middle-Vervollständigungen für VS Code und Vim/Neovim direkt über llama-server. Damit lässt sich lokale KI als Code-Assistent nutzen.

Preise und Tarife

llama.cpp ist komplett kostenlos. MIT-Lizenz, keine Einschränkungen für kommerzielle Nutzung. Die einzige Investition ist Hardware: Eine NVIDIA-GPU mit 8 GB VRAM reicht für die meisten 7B-Modelle mit Q4-Quantisierung. Für CPU-only-Betrieb sind 16 GB RAM für kleinere Modelle ausreichend.

Für wen ist llama.cpp geeignet?

Entwickler und Power-User: Wer maximale Kontrolle über Inferenz-Parameter braucht und bereit ist, einmalig aus dem Quellcode zu bauen. Direkte Steuerung über Quantisierung, Kontextgröße, Batch-Size und GPU-Offloading.
Teams mit spezieller Hardware: Wer AMD-GPUs, Intel-Beschleuniger oder ältere Grafikkarten über Vulkan nutzen will, findet in llama.cpp oft die bessere Unterstützung als bei Ollama.
Unternehmen mit eigener Infrastruktur: llama-server als interner API-Endpunkt, ohne Daten nach außen zu schicken. MIT-Lizenz erlaubt kommerzielle Nutzung ohne Einschränkungen.

DSGVO und Datenschutz

llama.cpp läuft vollständig lokal. Es werden keine Daten an externe Server gesendet, keine Telemetrie erhoben, keine Nutzungsdaten gesammelt. Für Unternehmen mit strengen Datenschutzanforderungen ist das die kompromissloseste Lösung: kein Netzwerkverkehr, keine Abhängigkeiten von Drittanbietern.

Alternativen zu llama.cpp

Ollama: Baut auf llama.cpp auf, aber mit Ein-Befehl-Installation und Modell-Library. Ideal für den Einstieg ohne Kompilierung.
LM Studio: Grafische Oberfläche für lokale Modelle, ebenfalls llama.cpp-basiert. Für den Desktop-Einsatz die bequemere Wahl.
vLLM: Für GPU-Server mit vielen gleichzeitigen Nutzern. Höherer Durchsatz durch PagedAttention und Continuous Batching.

Vorteile

Fundament von Ollama, LM Studio und GPT4All, technisch am nächsten am Modell

Breite GPU-Unterstützung: CUDA, ROCm/HIP, Vulkan, Metal, SYCL, OpenCL, OpenVINO

101.000+ GitHub Stars, extrem aktive Entwicklung mit wöchentlichen Releases

GGUF als De-facto-Standard für lokale Modelle etabliert

llama-server: OpenAI-kompatible API mit eingebauter WebUI

Multimodal: Vision-Language-Modelle und natives NVFP4-Format (NVIDIA)

llama.cpp – KI-Tool Test & Bewertung

Wichtigste Funktionen

Preise und Tarife

Für wen ist llama.cpp geeignet?

DSGVO und Datenschutz

Alternativen zu llama.cpp

Vorteile

Nachteile

Anwendungsgebiete

Du nutzt llama.cpp?

Ähnliche Tools

vLLM

LM Studio

vllm-mlx