Docling – KI-Tool Test & Bewertung
Docling (55.800 GitHub Stars, MIT-Lizenz) ist ein Dokumentenkonverter für KI-Pipelines, der über 15 Formate in strukturiertes Markdown oder JSON umwandelt. Tabellen und Seitenlayouts werden durch spezialisierte KI-Modelle erkannt. Mit Version 2 kamen Audio-Transkription, ein MCP-Server für Agenten-Anwendungen und das neue Heron-Modell für schnelleres PDF-Parsing hinzu.
Zuletzt aktualisiert: 14. März 2026
Wer ein RAG-System aufbaut, steht vor demselben Problem: Die eigentlichen Dokumente (PDFs, Word-Dateien, PowerPoint-Präsentationen) sind für Sprachmodelle schwer zu verarbeiten, weil Tabellen, Spalten und Seitenlayouts die Textstruktur durchbrechen. Docling löst dieses Problem, indem es Dokumente in sauberes, strukturiertes Markdown oder JSON umwandelt, das Embedding-Modelle und Vektordatenbanken problemlos verarbeiten können.
Wichtigste Funktionen
- Breite Formatunterstützung: PDF, DOCX, PPTX, XLSX, HTML, CSV, LaTeX, Bilder (PNG, JPEG, TIFF, WebP) und Audio-Dateien (WAV, MP3) werden unterstützt. Neu hinzugekommen sind WebVTT für Untertitel und XBRL für Finanzberichte.
- Tabellen- und Layouterkennung durch KI-Modelle: Das DocLayNet-Modell analysiert das Seitenlayout (Überschriften, Spalten, Bilder, Fußnoten), TableFormer erkennt Tabellenstrukturen inklusive verbundener Zellen. TableFormer erreicht in Benchmarks über 93 % Genauigkeit bei der Tabellenstruktur.
- Schnell bei digitalen PDFs: Bei PDF-Dateien, die am Computer erstellt wurden, liest Docling den Text direkt aus der Dateistruktur, ohne den Umweg über OCR. Das ist erheblich schneller und genauer als klassische Texterkennung.
- Neues Heron-Modell: Das Heron-Layoutmodell verbessert die Geschwindigkeit beim PDF-Parsing deutlich gegenüber früheren Versionen, besonders bei mehrseitigen Dokumenten.
- MCP-Server und Framework-Integrationen: Docling lässt sich als MCP-Server in Agenten-Anwendungen einbinden und bietet direkte Integrationen für LangChain, LlamaIndex, CrewAI und Haystack.
- Flexible Ausgabe: Export als Markdown, HTML, JSON, DocTags oder WebVTT, je nachdem, was deine nachgelagerte Pipeline erwartet.
Preise und Tarife
Docling ist vollständig kostenlos und unter der MIT-Lizenz veröffentlicht, die auch die kommerzielle Nutzung ohne Einschränkungen erlaubt. Installation per pip install docling. Für den Serverbetrieb gibt es Docling Serve als Docker-Container mit REST-API.
Für wen ist Docling geeignet?
- Unternehmen, die ein RAG-System aufbauen: Docling übernimmt die Vorverarbeitung, also den ersten Schritt der Pipeline. Es wandelt Firmenhandbücher, Verträge oder technische Dokumentation in ein Format um, das Embedding-Modelle und Vektordatenbanken direkt verarbeiten können. Mehr dazu im Artikel RAG-System aufsetzen: Die beste Konfiguration mit wenig Aufwand.
- Entwicklerteams, die eine zuverlässige, standardisierte Dokumentenkonvertierung in Python-Anwendungen einbauen wollen, ohne jedes Format selbst parsen zu müssen.
- IT-Abteilungen, die große Dokumentenbestände (Handbücher, Verträge, technische Dokumentation) maschinell aufbereiten müssen und dabei volle Kontrolle über die Datenverarbeitung brauchen.
DSGVO und Datenschutz
Docling läuft vollständig lokal ohne Cloud-Anbindung. Kein Dokument verlässt das System, in dem es verarbeitet wird. Die MIT-Lizenz erlaubt den kommerziellen Einsatz ohne Einschränkungen. Das Projekt wird unter dem Dach der LF AI & Data Foundation (Linux Foundation) gehostet und von IBM Research Zürich weiterentwickelt. Stand März 2026 ist Version 2.80.0 aktuell.
Alternativen zu Docling
- Unstructured: Ähnliches Konzept mit starkem Fokus auf Cloud-Deployment und mehr eingebauten Konnektor-Integrationen. Stärker auf den US-Markt ausgerichtet, kostenlose Nutzung ist begrenzt.
- RAGFlow: Spezialisiert auf komplexe Dokumente wie Rechnungen und verschachtelte Tabellen. Bringt eine eigene RAG-Pipeline mit und hat über 73.000 GitHub Stars.
- Paperless-ngx: Wenn es weniger um KI-Preprocessing und mehr um ein vollständiges Dokumentenmanagementsystem mit OCR und Archivierung geht, ist Paperless-ngx die richtige Wahl.
Vorteile
- Über 15 Eingabeformate (PDF, DOCX, PPTX, XLSX, HTML, Bilder, Audio)
- KI-Modelle für Tabellen- und Layouterkennung (über 93 % Genauigkeit)
- Vollständig lokal, kein Cloud-Zwang, DSGVO-konform
- Sehr aktive Entwicklung unter LF AI & Data Foundation (IBM)
Nachteile
- Python 3.10+ erforderlich, kein grafisches Interface
- Für gescannte Dokumente zusätzliches OCR-Modell nötig
- Ressourcenintensiv bei großen Dokumentenmengen ohne GPU
Anwendungsgebiete
Du nutzt Docling?
Teile deine Erfahrung mit uns – wir nehmen dein Feedback in unsere Bewertung auf.