Zum Inhalt springen
D

Docling – KI-Tool Test & Bewertung

5.0
RAG & Vektordatenbanken Kostenlos Komplett kostenlos (MIT-Lizenz) Self-Hosted DSGVO-konform Open Source

Docling (55.800 GitHub Stars, MIT-Lizenz) ist ein Dokumentenkonverter für KI-Pipelines, der über 15 Formate in strukturiertes Markdown oder JSON umwandelt. Tabellen und Seitenlayouts werden durch spezialisierte KI-Modelle erkannt. Mit Version 2 kamen Audio-Transkription, ein MCP-Server für Agenten-Anwendungen und das neue Heron-Modell für schnelleres PDF-Parsing hinzu.

Zuletzt aktualisiert: 14. März 2026

Wer ein RAG-System aufbaut, steht vor demselben Problem: Die eigentlichen Dokumente (PDFs, Word-Dateien, PowerPoint-Präsentationen) sind für Sprachmodelle schwer zu verarbeiten, weil Tabellen, Spalten und Seitenlayouts die Textstruktur durchbrechen. Docling löst dieses Problem, indem es Dokumente in sauberes, strukturiertes Markdown oder JSON umwandelt, das Embedding-Modelle und Vektordatenbanken problemlos verarbeiten können.

Wichtigste Funktionen

  • Breite Formatunterstützung: PDF, DOCX, PPTX, XLSX, HTML, CSV, LaTeX, Bilder (PNG, JPEG, TIFF, WebP) und Audio-Dateien (WAV, MP3) werden unterstützt. Neu hinzugekommen sind WebVTT für Untertitel und XBRL für Finanzberichte.
  • Tabellen- und Layouterkennung durch KI-Modelle: Das DocLayNet-Modell analysiert das Seitenlayout (Überschriften, Spalten, Bilder, Fußnoten), TableFormer erkennt Tabellenstrukturen inklusive verbundener Zellen. TableFormer erreicht in Benchmarks über 93 % Genauigkeit bei der Tabellenstruktur.
  • Schnell bei digitalen PDFs: Bei PDF-Dateien, die am Computer erstellt wurden, liest Docling den Text direkt aus der Dateistruktur, ohne den Umweg über OCR. Das ist erheblich schneller und genauer als klassische Texterkennung.
  • Neues Heron-Modell: Das Heron-Layoutmodell verbessert die Geschwindigkeit beim PDF-Parsing deutlich gegenüber früheren Versionen, besonders bei mehrseitigen Dokumenten.
  • MCP-Server und Framework-Integrationen: Docling lässt sich als MCP-Server in Agenten-Anwendungen einbinden und bietet direkte Integrationen für LangChain, LlamaIndex, CrewAI und Haystack.
  • Flexible Ausgabe: Export als Markdown, HTML, JSON, DocTags oder WebVTT, je nachdem, was deine nachgelagerte Pipeline erwartet.

Preise und Tarife

Docling ist vollständig kostenlos und unter der MIT-Lizenz veröffentlicht, die auch die kommerzielle Nutzung ohne Einschränkungen erlaubt. Installation per pip install docling. Für den Serverbetrieb gibt es Docling Serve als Docker-Container mit REST-API.

Für wen ist Docling geeignet?

  • Unternehmen, die ein RAG-System aufbauen: Docling übernimmt die Vorverarbeitung, also den ersten Schritt der Pipeline. Es wandelt Firmenhandbücher, Verträge oder technische Dokumentation in ein Format um, das Embedding-Modelle und Vektordatenbanken direkt verarbeiten können. Mehr dazu im Artikel RAG-System aufsetzen: Die beste Konfiguration mit wenig Aufwand.
  • Entwicklerteams, die eine zuverlässige, standardisierte Dokumentenkonvertierung in Python-Anwendungen einbauen wollen, ohne jedes Format selbst parsen zu müssen.
  • IT-Abteilungen, die große Dokumentenbestände (Handbücher, Verträge, technische Dokumentation) maschinell aufbereiten müssen und dabei volle Kontrolle über die Datenverarbeitung brauchen.

DSGVO und Datenschutz

Docling läuft vollständig lokal ohne Cloud-Anbindung. Kein Dokument verlässt das System, in dem es verarbeitet wird. Die MIT-Lizenz erlaubt den kommerziellen Einsatz ohne Einschränkungen. Das Projekt wird unter dem Dach der LF AI & Data Foundation (Linux Foundation) gehostet und von IBM Research Zürich weiterentwickelt. Stand März 2026 ist Version 2.80.0 aktuell.

Alternativen zu Docling

  • Unstructured: Ähnliches Konzept mit starkem Fokus auf Cloud-Deployment und mehr eingebauten Konnektor-Integrationen. Stärker auf den US-Markt ausgerichtet, kostenlose Nutzung ist begrenzt.
  • RAGFlow: Spezialisiert auf komplexe Dokumente wie Rechnungen und verschachtelte Tabellen. Bringt eine eigene RAG-Pipeline mit und hat über 73.000 GitHub Stars.
  • Paperless-ngx: Wenn es weniger um KI-Preprocessing und mehr um ein vollständiges Dokumentenmanagementsystem mit OCR und Archivierung geht, ist Paperless-ngx die richtige Wahl.

Vorteile

  • Über 15 Eingabeformate (PDF, DOCX, PPTX, XLSX, HTML, Bilder, Audio)
  • KI-Modelle für Tabellen- und Layouterkennung (über 93 % Genauigkeit)
  • Vollständig lokal, kein Cloud-Zwang, DSGVO-konform
  • Sehr aktive Entwicklung unter LF AI & Data Foundation (IBM)

Nachteile

  • Python 3.10+ erforderlich, kein grafisches Interface
  • Für gescannte Dokumente zusätzliches OCR-Modell nötig
  • Ressourcenintensiv bei großen Dokumentenmengen ohne GPU

Anwendungsgebiete

Dokumente für RAG-Systeme aufbereitenPDF-zu-Markdown-KonvertierungTabellen aus PDFs extrahierenDokumente für KI-Pipelines vorverarbeiten

Du nutzt Docling?

Teile deine Erfahrung mit uns – wir nehmen dein Feedback in unsere Bewertung auf.