Ollama – KI-Tool Test & Bewertung
Ollama ist das meistgenutzte Werkzeug, um große Sprachmodelle lokal auf dem eigenen Rechner zu betreiben. Ein einziger Befehl im Terminal genügt, um ein Modell herunterzuladen und sofort zu starten. Keine Cloud, kein Konto, keine laufenden Kosten. Die OpenAI-kompatible REST-API macht Ollama zum praktischen Backend für zahlreiche Tools und Eigenentwicklungen.
Zuletzt aktualisiert: 1. April 2026
Wer lokale KI ohne kompliziertes Setup ausprobieren will, kommt an Ollama kaum vorbei. Das Tool übernimmt alles: Modell herunterladen, laden, als API bereitstellen. Mit über 167.000 GitHub Stars ist es das populärste Projekt für lokale LLM-Inferenz. Die aktuelle Version 0.19 bringt ein neues MLX-Backend für Apple-Silicon-Macs, das die Inferenzgeschwindigkeit bei Textgenerierung nahezu verdoppelt.
Wichtigste Funktionen
- Einfache Modellverwaltung: Mit
ollama pull llama3.3oderollama run qwen3lädst du Modelle direkt aus der offiziellen Bibliothek. Hunderte Modelle stehen zur Verfügung, von kleinen 1B-Parameter-Varianten bis zu Modellen mit 400B Parametern für leistungsstarke Hardware. - MLX-Backend für Apple Silicon: Seit Version 0.19 nutzt Ollama auf Macs mit Apple Silicon das MLX-Framework. Der Durchsatz steigt dadurch erheblich: Prefill von 1.154 auf 1.810 Tokens pro Sekunde, Textgenerierung von 58 auf 112 Tokens pro Sekunde. Der Speicherverbrauch sinkt gleichzeitig.
- OpenAI-kompatible REST-API: Ollama stellt lokal eine API bereit, die zur OpenAI-Schnittstelle kompatibel ist. Tools wie Open WebUI, Coding-Assistenten oder Automatisierungsplattformen lassen sich damit direkt verbinden, ohne Anpassungen am Code.
- Flash Attention: Ollama aktiviert Flash Attention automatisch. Das verbessert die Inferenzgeschwindigkeit und reduziert den Speicherverbrauch bei langen Kontexten spürbar.
- Thinking-Modus: Bei Modellen mit Reasoning-Unterstützung kannst du den Thinking-Modus aktivieren und deaktivieren, je nachdem ob du ausführliches Reasoning oder schnelle Antworten brauchst.
- Breite Plattformunterstützung: Läuft auf macOS, Linux und Windows, auch nativ auf ARM64-Geräten. Docker-Images sind ebenfalls verfügbar. VS Code lässt sich über GitHub Copilot direkt mit Ollama verbinden.
Preise und Tarife
Ollama ist vollständig kostenlos und steht unter der MIT-Lizenz. Es gibt keine Abo-Kosten, keine Nutzungslimits und keine versteckten Gebühren. Die einzige Investition ist die Hardware: Für kleine Modelle mit 7 Milliarden Parametern reichen 8 GB RAM. Modelle mit 70 Milliarden Parametern benötigen mindestens 64 GB RAM, idealerweise eine dedizierte GPU. Ollama selbst ist auch für kommerzielle Zwecke kostenlos nutzbar.
Für wen ist Ollama geeignet?
- Datenschutzbewusste Unternehmen: Alle verarbeiteten Daten bleiben auf dem eigenen Rechner oder Server. Es gibt keine Verbindung zu externen Diensten, keine AVV-Pflicht mit Drittanbietern und keine offene Frage zur DSGVO-Konformität. Das ist besonders relevant für Gesundheitswesen, Kanzleien und Finanzbetriebe.
- Entwickler und technisch affine Teams: Ollama eignet sich als schnelles Backend für Prototypen, zum Vergleichen verschiedener Modelle und als Drop-in-Ersatz für die OpenAI-API in lokalen Projekten. Die REST-API lässt sich in Minuten anbinden.
- Workshopleiter und Trainer: Weil Ollama offline funktioniert und kein Konto benötigt, ist es ideal für Schulungen und Demos. Du bist nicht auf eine Internetverbindung oder die Verfügbarkeit eines externen Dienstes angewiesen.
DSGVO und Datenschutz
Ollama läuft vollständig lokal auf deinem Rechner oder deinem eigenen Server. Es werden keine Daten an externe Dienste übermittelt, keine Telemetrie gesendet und keine Nutzungsstatistiken erfasst. Damit entfällt die Notwendigkeit eines Auftragsverarbeitungsvertrags mit einem Drittanbieter. Für Unternehmen, die mit vertraulichen oder personenbezogenen Daten arbeiten, ist das die datenschutzfreundlichste Option unter allen LLM-Lösungen. Da Ollama quelloffen ist, lässt sich der Code prüfen und das Tool in isolierten Netzwerken ohne Internetzugang betreiben.
Alternativen zu Ollama
- LM Studio: Bietet eine grafische Oberfläche für lokale Modelle. Für alle, die ohne Terminal arbeiten wollen, ist LM Studio der einfachere Einstieg.
- GPT4All: Desktop-App mit eingebautem Chat-Interface, besonders einsteigerfreundlich und ebenfalls komplett lokal betreibbar.
- Open WebUI: Kein Ersatz für Ollama, sondern eine Ergänzung. Open WebUI bietet eine ChatGPT-ähnliche Weboberfläche, die Ollama als Backend nutzt.
Vorteile
- Extrem einfache Installation auf macOS, Windows und Linux
- Komplett lokal, volle Datenkontrolle ohne Cloud-Abhängigkeit
- MLX-Backend für Apple Silicon mit nahezu doppelter Geschwindigkeit
- OpenAI-kompatible REST-API für einfache Integration
Nachteile
- Nur Kommandozeile, für Chat-Nutzung braucht es ein UI wie Open WebUI
- Leistungsfähige Hardware empfohlen, besonders für größere Modelle
- Modelle belegen viel Speicherplatz (7B ab ca. 4 GB, 70B ab ca. 40 GB)
Anwendungsgebiete
Du nutzt Ollama?
Teile deine Erfahrung mit uns – wir nehmen dein Feedback in unsere Bewertung auf.