Zum Inhalt springen
L

Langfuse: KI-Tool Test & Bewertung

4.5
Monitoring Freemium Kostenlos (Self-hosted) / Cloud: Hobby kostenlos, Core $29/Monat, Pro $199/Monat, Enterprise $2.499/Monat Hybrid DSGVO-konform Open Source

Langfuse ist die führende Open-Source-Plattform für LLM-Observability und LLM-Engineering. Jeder KI-API-Aufruf wird mit Eingabe, Ausgabe, Latenz, Kosten und Nutzer-Feedback vollständig geloggt. Dazu kommen Prompt-Management mit Versionierung, automatisierte Evaluierungen und ein zentrales Dashboard. Stand März 2026 ist Version 3 im Einsatz, Self-Hosted via Docker oder EU-Cloud verfügbar.

Zuletzt aktualisiert: 14. März 2026

Wer KI-Anwendungen produktiv betreibt, merkt schnell: Ohne Monitoring läuft man blind. Welcher Prompt liefert schlechte Antworten? Welches Modell kostet das meiste Geld? Warum steigen die Latenzzeiten? Langfuse beantwortet diese Fragen, indem es jeden LLM-Aufruf vollständig aufzeichnet und auswertbar macht. Das Konzept ähnelt Sentry für klassische Anwendungen, ist aber speziell auf die Eigenheiten von LLM-Anwendungen ausgerichtet.

Wichtigste Funktionen

  • Tracing: Jeder API-Aufruf wird als Trace gespeichert mit vollständigem Prompt, Antwort, Modell, Latenz und Kosten. Bei mehrstufigen Pipelines wie RAG oder Agenten wird jeder Zwischenschritt einzeln erfasst und dargestellt.
  • Prompt-Management: Prompts zentral verwalten, versionieren und direkt im Langfuse-Dashboard testen. Prompt-Änderungen erfordern keinen neuen Code-Deploy, da Prompts über die API geladen werden.
  • Evaluierungen: Antwortqualität automatisch oder manuell bewerten, entweder per LLM-as-Judge oder mit eigenen Metriken. Hilfreich um Prompt-Versionen objektiv zu vergleichen.
  • Kosten-Tracking: Aufschlüsselung der Token-Kosten nach Modell, Nutzer, Feature oder Zeitraum. So lassen sich teure Abfragen identifizieren und gezielt optimieren.
  • Nutzerfeedback: Daumen-hoch/runter direkt in die eigene Anwendung integrieren und mit den entsprechenden Traces korrelieren. Schlechte Nutzerreaktionen lassen sich direkt dem auslösenden Prompt zuordnen.
  • Playground und Volltext-Suche: Prompts im integrierten Playground testen und Traces nach Inhalten durchsuchen, seit v3.158 mit Volltext-Suche über Message-Windows.

Preise und Tarife

Der Self-Hosted-Betrieb ist kostenlos und enthält alle Kernfunktionen. Einige Enterprise-Features (UI-Anpassungen, erweiterte Organisationsverwaltung) erfordern einen Lizenzschlüssel. Für Teams ohne eigene Infrastruktur bietet Langfuse eine Cloud-Version: Der Hobby-Plan ist dauerhaft kostenlos und braucht keine Kreditkarte. Core kostet $29 pro Monat und richtet sich an kleinere Teams. Pro liegt bei $199 pro Monat und bietet höhere Limits und Prioritätssupport. Enterprise startet bei $2.499 pro Monat mit dedizierten Ressourcen und SLA. EU-Cloud-Hosting (Frankfurt) ist für alle zahlenden Cloud-Tarife verfügbar.

Für wen ist Langfuse geeignet?

  • Entwickler von KI-Anwendungen: Wer RAG-Pipelines, Agenten oder LLM-APIs in Produktion betreibt und verstehen will, was schiefläuft, braucht ein Observability-Tool wie Langfuse.
  • Teams mit mehreren KI-Features: Wenn verschiedene Prompts und Modelle im Einsatz sind und der Kostenüberblick fehlt, schafft Langfuse das fehlende Dashboard.
  • DSGVO-bewusste Unternehmen: Self-Hosted-Option oder EU-Cloud halten Trace-Daten, die sensible Nutzereingaben enthalten können, in Europa.

DSGVO und Datenschutz

Langfuse ist Open Source und kann vollständig auf eigener Infrastruktur betrieben werden. Die Self-Hosted-Installation läuft per Docker Compose (für kleinere Deployments) oder Kubernetes (für Produktion) und benötigt Postgres, ClickHouse, Redis und S3-kompatiblen Blob-Storage. Alle Daten verbleiben im eigenen Netzwerk. Die Cloud-Version bietet EU-Hosting in Frankfurt als Option für alle zahlenden Tarife, mit Auftragsverarbeitungsvertrag. Da Traces die tatsächlichen LLM-Eingaben enthalten können, ist Self-Hosting oder EU-Cloud für DSGVO-konforme Anwendungen die bevorzugte Wahl.

Alternativen zu Langfuse

  • LiteLLM – Schwerpunkt auf API-Gateway und Modell-Routing. Langfuse und LiteLLM ergänzen sich gut, da LiteLLM Observability-Daten an Langfuse exportieren kann.
  • Portkey – Ähnlicher Ansatz für LLM-Observability, weniger Self-Hosted-Fokus, stärker auf Cloud-native Nutzung ausgerichtet.

Vorteile

  • Vollständiges Tracing jedes LLM-Aufrufs mit Input, Output, Latenz und Kosten
  • Self-hosted per Docker, Daten bleiben im eigenen Netzwerk
  • Prompt-Management mit Versionierung direkt in der UI
  • Integrationen für OpenAI, Anthropic, Ollama, LangChain, Flowise und mehr
  • EU-Cloud-Option für DSGVO-konforme Teams ohne Self-Hosting-Aufwand

Nachteile

  • Erfordert SDK-Integration (Python oder JavaScript) für den ersten Setup
  • Self-Hosted-Betrieb benötigt mehrere Komponenten (Postgres, ClickHouse, Redis, S3)

Anwendungsgebiete

LLM-Kosten und Latenz überwachenPrompt-Versionen verwalten und vergleichenFehler in KI-Antworten aufspürenRAG-Pipeline-Qualität messen

Ähnliche Tools