Docling: KI-Tool Test & Bewertung
Docling (über 61.000 GitHub Stars, MIT-Lizenz) ist ein Dokumentenkonverter für KI-Pipelines, der über 15 Formate in strukturiertes Markdown oder JSON umwandelt. Tabellen und Seitenlayouts werden durch spezialisierte KI-Modelle erkannt. Mit Version 2 kamen Audio-Transkription, ein MCP-Server für Agenten-Anwendungen und das Heron-Layoutmodell für schnelleres PDF-Parsing hinzu. Anfang 2026 folgte mit Granite-Docling-258M ein kompaktes Vision-Language-Modell unter Apache 2.0.
Zuletzt aktualisiert: 7. Juni 2026
Wer ein RAG-System aufbaut, steht vor demselben Problem: Die eigentlichen Dokumente (PDFs, Word-Dateien, PowerPoint-Präsentationen) sind für Sprachmodelle schwer zu verarbeiten, weil Tabellen, Spalten und Seitenlayouts die Textstruktur durchbrechen. Docling löst dieses Problem, indem es Dokumente in sauberes, strukturiertes Markdown oder JSON umwandelt, das Embedding-Modelle und Vektordatenbanken problemlos verarbeiten können.
Wichtigste Funktionen
- Breite Formatunterstützung: PDF, DOCX, PPTX, XLSX, HTML, CSV, LaTeX, Bilder (PNG, JPEG, TIFF, WebP) und Audio-Dateien (WAV, MP3) werden unterstützt. Neu hinzugekommen sind WebVTT für Untertitel und XBRL für Finanzberichte.
- Tabellen- und Layouterkennung durch KI-Modelle: Heron ist seit Ende 2025 das Standard-Layoutmodell. Es analysiert das Seitenlayout (Überschriften, Spalten, Bilder, Fußnoten), hält die logische Lesereihenfolge auch bei komplexen Seiten ein und erkennt Strukturen rund 23 % zuverlässiger als das frühere Docling-Modell. TableFormer erkennt zusätzlich Tabellenstrukturen inklusive verbundener Zellen und erreicht in Benchmarks über 93 % Genauigkeit bei der Tabellenstruktur.
- Schnell bei digitalen PDFs: Bei PDF-Dateien, die am Computer erstellt wurden, liest Docling den Text direkt aus der Dateistruktur, ohne den Umweg über OCR. Das ist erheblich schneller und genauer als klassische Texterkennung.
- Granite-Docling-Vision-Modell: Mit Granite-Docling-258M steht ein kompaktes Vision-Language-Modell (Apache 2.0) bereit, das Layout, Tabellen und Formeln in einem Durchgang erkennt. Nützlich für komplexe oder gescannte Seiten, an denen reine Textextraktion scheitert.
- MCP-Server und Framework-Integrationen: Docling lässt sich als MCP-Server in Agenten-Anwendungen einbinden und bietet direkte Integrationen für LangChain, LlamaIndex, CrewAI und Haystack.
- Flexible Ausgabe: Export als Markdown, HTML, JSON, DocTags oder WebVTT, je nachdem, was Ihre nachgelagerte Pipeline erwartet.
Preise und Tarife
Docling ist vollständig kostenlos und unter der MIT-Lizenz veröffentlicht, die auch die kommerzielle Nutzung ohne Einschränkungen erlaubt. Installation per pip install docling. Für den Serverbetrieb gibt es Docling Serve als Docker-Container mit REST-API.
Für wen ist Docling geeignet?
- Unternehmen, die ein RAG-System aufbauen: Docling übernimmt die Vorverarbeitung, also den ersten Schritt der Pipeline. Es wandelt Firmenhandbücher, Verträge oder technische Dokumentation in ein Format um, das Embedding-Modelle und Vektordatenbanken direkt verarbeiten können. Mehr dazu im Artikel RAG-System aufsetzen: Die beste Konfiguration mit wenig Aufwand.
- Entwicklerteams, die eine zuverlässige, standardisierte Dokumentenkonvertierung in Python-Anwendungen einbauen wollen, ohne jedes Format selbst parsen zu müssen.
- IT-Abteilungen, die große Dokumentenbestände (Handbücher, Verträge, technische Dokumentation) maschinell aufbereiten müssen und dabei volle Kontrolle über die Datenverarbeitung brauchen.
DSGVO und Datenschutz
Docling läuft vollständig lokal ohne Cloud-Anbindung. Kein Dokument verlässt das System, in dem es verarbeitet wird. Die MIT-Lizenz erlaubt den kommerziellen Einsatz ohne Einschränkungen. Das Projekt wird unter dem Dach der Linux Foundation gehostet und von IBM Research weiterentwickelt. Anfang 2026 wechselte es in die neu gegründete Agentic AI Foundation der Linux Foundation und wird seither aktiv weiterentwickelt.
Alternativen zu Docling
- Unstructured: Ähnliches Konzept mit starkem Fokus auf Cloud-Deployment und mehr eingebauten Konnektor-Integrationen. Stärker auf den US-Markt ausgerichtet, kostenlose Nutzung ist begrenzt.
- RAGFlow: Spezialisiert auf komplexe Dokumente wie Rechnungen und verschachtelte Tabellen. Bringt eine eigene RAG-Pipeline mit und hat über 82.000 GitHub Stars.
- Paperless-ngx: Wenn es weniger um KI-Preprocessing und mehr um ein vollständiges Dokumentenmanagementsystem mit OCR und Archivierung geht, ist Paperless-ngx die richtige Wahl.
Vorteile
- Über 15 Eingabeformate (PDF, DOCX, PPTX, XLSX, HTML, Bilder, Audio)
- KI-Modelle für Tabellen- und Layouterkennung (über 93 % Genauigkeit)
- Vollständig lokal, kein Cloud-Zwang, DSGVO-konform
- Sehr aktive Entwicklung unter LF AI & Data Foundation (IBM)
Nachteile
- Python 3.10+ erforderlich, kein grafisches Interface
- Für gescannte Dokumente zusätzliches OCR-Modell nötig
- Ressourcenintensiv bei großen Dokumentenmengen ohne GPU