llama.cpp – KI-Tool Test & Bewertung
llama.cpp ist die C/C++-Implementierung für lokale LLM-Inferenz und das technische Fundament, auf dem Ollama, LM Studio und GPT4All aufbauen. Das Projekt von Georgi Gerganov hat das GGUF-Format als Standard für quantisierte Modelle etabliert und ist mit über 101.000 GitHub Stars das aktivste Projekt im Bereich lokaler KI-Inferenz.
Zuletzt aktualisiert: 1. April 2026
llama.cpp ist das Projekt, das lokale KI auf Consumer-Hardware möglich gemacht hat. Georgi Gerganov startete es im März 2023 als C/C++-Port von Metas LLaMA-Modell mit einem klaren Ziel: LLMs ohne Python, ohne Cloud und ohne teure Profi-Hardware ausführen. Heute ist llama.cpp mit über 101.000 GitHub Stars das technische Fundament, auf dem Ollama, LM Studio und GPT4All aufbauen. Wer maximale Kontrolle über Inferenz-Parameter braucht, spezielle Hardware wie AMD-GPUs nutzt oder neue GGUF-Modelle sofort testen will, greift direkt zu llama.cpp.
Wichtigste Funktionen
- GGUF-Format: llama.cpp hat das GGUF-Format als Standard für quantisierte Modelle etabliert. Alle gängigen Quantisierungsstufen werden unterstützt: Q2_K bis Q8_0, mit Q4_K_M als bewährtem Kompromiss aus Qualität und Speicherverbrauch.
- Breite GPU-Backend-Unterstützung: CUDA (NVIDIA), HIP/ROCm (AMD), Vulkan (plattformübergreifend, ältere Karten), Metal (Apple Silicon), SYCL (Intel), OpenVINO (Edge), CANN (Huawei Ascend) und OpenCL. Gerade für AMD-GPUs ist llama.cpp oft die bessere Wahl als Ollama.
- llama-server: OpenAI-kompatible HTTP-API mit Streaming, parallelen Slots, Embedding-Support und konfigurierbarem KV-Cache. Modelle können direkt von Hugging Face geladen werden. Die eingebaute WebUI ermöglicht Chat direkt im Browser, ohne externe Tools.
- Multimodal: Unterstützung für Vision-Language-Modelle direkt im Server. Natives NVFP4-Format für neuere NVIDIA-GPUs in Zusammenarbeit mit NVIDIA.
- Flash Attention: Funktioniert seit kurzem auch mit Head Dimension 512, was die GPU-Beschleunigung auf größere Modellkonfigurationen ausweitet. Das verbessert die Performance bei Modellen mit langen Kontexten deutlich.
- Editor-Plugins: Fill-In-the-Middle-Vervollständigungen für VS Code und Vim/Neovim direkt über llama-server. Damit lässt sich lokale KI als Code-Assistent nutzen.
Preise und Tarife
llama.cpp ist komplett kostenlos. MIT-Lizenz, keine Einschränkungen für kommerzielle Nutzung. Die einzige Investition ist Hardware: Eine NVIDIA-GPU mit 8 GB VRAM reicht für die meisten 7B-Modelle mit Q4-Quantisierung. Für CPU-only-Betrieb sind 16 GB RAM für kleinere Modelle ausreichend.
Für wen ist llama.cpp geeignet?
- Entwickler und Power-User: Wer maximale Kontrolle über Inferenz-Parameter braucht und bereit ist, einmalig aus dem Quellcode zu bauen. Direkte Steuerung über Quantisierung, Kontextgröße, Batch-Size und GPU-Offloading.
- Teams mit spezieller Hardware: Wer AMD-GPUs, Intel-Beschleuniger oder ältere Grafikkarten über Vulkan nutzen will, findet in llama.cpp oft die bessere Unterstützung als bei Ollama.
- Unternehmen mit eigener Infrastruktur: llama-server als interner API-Endpunkt, ohne Daten nach außen zu schicken. MIT-Lizenz erlaubt kommerzielle Nutzung ohne Einschränkungen.
DSGVO und Datenschutz
llama.cpp läuft vollständig lokal. Es werden keine Daten an externe Server gesendet, keine Telemetrie erhoben, keine Nutzungsdaten gesammelt. Für Unternehmen mit strengen Datenschutzanforderungen ist das die kompromissloseste Lösung: kein Netzwerkverkehr, keine Abhängigkeiten von Drittanbietern.
Alternativen zu llama.cpp
- Ollama: Baut auf llama.cpp auf, aber mit Ein-Befehl-Installation und Modell-Library. Ideal für den Einstieg ohne Kompilierung.
- LM Studio: Grafische Oberfläche für lokale Modelle, ebenfalls llama.cpp-basiert. Für den Desktop-Einsatz die bequemere Wahl.
- vLLM: Für GPU-Server mit vielen gleichzeitigen Nutzern. Höherer Durchsatz durch PagedAttention und Continuous Batching.
Vorteile
- Fundament von Ollama, LM Studio und GPT4All, technisch am nächsten am Modell
- Breite GPU-Unterstützung: CUDA, ROCm/HIP, Vulkan, Metal, SYCL, OpenCL, OpenVINO
- 101.000+ GitHub Stars, extrem aktive Entwicklung mit wöchentlichen Releases
- GGUF als De-facto-Standard für lokale Modelle etabliert
- llama-server: OpenAI-kompatible API mit eingebauter WebUI
- Multimodal: Vision-Language-Modelle und natives NVFP4-Format (NVIDIA)
Nachteile
- Kompilierung aus dem Quellcode nötig (CMake, ggf. CUDA-Toolkit)
- Keine grafische Oberfläche, reines Kommandozeilen-Tool
- Mehr Konfigurationsaufwand als Ollama oder LM Studio
- Für Einsteiger ohne Entwicklungserfahrung zu technisch
Anwendungsgebiete
Du nutzt llama.cpp?
Teile deine Erfahrung mit uns – wir nehmen dein Feedback in unsere Bewertung auf.