Zum Inhalt springen
DatenqualitätKI-StrategieEinsteiger

Warum die beste KI an Ihrer Ablage scheitert

KI funktioniert nicht? Vielleicht liegt es nicht an der Technik, sondern an Ihren Ordnern. Warum Datenqualität wichtiger ist als jede Software.

RC
Ralf Cornesse
· · Aktualisiert 15.03.2026
Warum die beste KI an Ihrer Ablage scheitert

Gartner prognostiziert, dass 60 Prozent aller KI-Projekte an fehlender Datenqualität scheitern werden. Nicht an der Technik, nicht am Budget, nicht am fehlenden Know-how. An den Daten. Eine aktuelle Studie von Precisely und der Drexel University bestätigt das Paradox: 88 Prozent der befragten Führungskräfte glauben, ihre Daten seien KI-tauglich. Gleichzeitig nennen 43 Prozent genau diese Daten-Readiness als größtes Hindernis bei der Umsetzung.

Diese Lücke zwischen Selbsteinschätzung und Realität sehen wir auch bei unseren Kunden. Der Wille ist da, die Tools sind installiert, aber wenn die KI dann auf die Frage nach dem aktuellen Preis für Artikel A mit einer Zahl aus dem Jahr 2017 antwortet, ist die Enttäuschung groß. Die Technik funktioniert einwandfrei. Das Problem liegt in Ihren Ordnern.

Der Mythos von der allwissenden KI

Es hält sich hartnäckig der Glaube, Künstliche Intelligenz sei so schlau, dass sie das Chaos, das wir Menschen hinterlassen, automatisch sortieren kann. Nach dem Motto: “Wir werfen einfach alles in den Trichter, die KI sucht sich das Richtige schon raus.”

Das ist ein gefährlicher Irrtum.

Stellen Sie sich vor, Sie führen einen neuen Mitarbeiter an einen riesigen Aktenschrank und sagen: “Hier ist alles drin, was wir wissen. Beantworte damit die Kundenfragen.”

Er öffnet die Schublade und findet:

  1. Ein Angebot von gestern (“Final_V3.pdf”).
  2. Ein fast identisches Angebot von vorletzter Woche (“Final_V2_Korrektur.pdf”).
  3. Eine handgeschriebene, eingescannte Notiz ohne Dateinamen (“Scan_0815.pdf”).

Woher soll er wissen, welches Dokument die Wahrheit ist? Er kann es nicht wissen. Er wird raten. Und er wird im Zweifel das falsche nehmen.

Eine KI macht genau das Gleiche. Sie ist keine Müllabfuhr, die Abfall in Gold verwandelt. Sie ist ein Verstärker. Sie verstärkt Ordnung, aber sie verstärkt auch Chaos.

60 Prozent scheitern: Die Zahlen sprechen eine klare Sprache

Das BARC “Data, BI and Analytics Trend Monitor 2026” hat Data Quality Management zurück auf Platz 1 der wichtigsten Themen gewählt. 77 Prozent der befragten Organisationen bewerten ihre eigene Datenqualität als durchschnittlich oder schlechter. Laut Gartner kostet schlechte Datenqualität Unternehmen durchschnittlich 15 Prozent ihres Jahresumsatzes.

60 %

der KI-Projekte scheitern laut Gartner an fehlender Datenqualität

15 %

des Jahresumsatzes kosten schlechte Daten im Durchschnitt (Gartner)

77 %

der Unternehmen bewerten ihre Datenqualität als durchschnittlich oder schlechter (BARC)

Für Unternehmen ist das gleichzeitig Warnung und Chance. Die Warnung: Ohne saubere Daten verbrennt jede KI-Investition Geld. Die Chance: Ihre Datenmenge ist überschaubar. Einen Terabyte-Datenmüllhaufen bei einem Konzern aufzuräumen, dauert Jahre. Ihre Ordnerstruktur fit zu machen, ist ein Projekt von wenigen Tagen.

Das Prinzip “Lagerhaltung”: Digital wie Analog

In der Produktion und Logistik haben wir das längst verstanden. Kein Lager würde Rohmaterial, Werkzeuge und Ausschussware in eine große Kiste werfen und hoffen, dass man beim Reingreifen zufällig das Passende findet.

Ein gut geführtes Lager hat System:

  • Altes kommt weg oder ins Archiv.
  • Alles ist beschriftet.
  • Jedes Teil hat seinen Platz.

Warum akzeptieren wir dann in unserer digitalen Ablage Zustände, für die jeder Lagerist gefeuert würde?

Oft hört man den Satz: “Das ist historisch gewachsen.” Das ist die höfliche Umschreibung für: “Wir haben uns nie getraut, was zu löschen.” Die gute Nachricht: Für KI müssen Sie keine perfekte Ordnung schaffen. Sie müssen nur die größten Fehlerquellen beseitigen.

Welche Daten eignen sich besonders gut für KI?

Bevor Sie anfangen, alles aufzuräumen, lohnt ein kurzer Blick darauf, womit KI gut zurechtkommt und womit sie sich schwertut.

Ideal

Durchsuchbare PDFs, Word-Dokumente und Textdateien mit klarer Struktur. Handbücher, Prozessbeschreibungen, FAQ-Dokumente, aktuelle Preislisten.

Mit Aufbereitung nutzbar

Gescannte Dokumente mit OCR-Verarbeitung, Excel-Tabellen als CSV exportiert, alte Word-Dokumente nach Bereinigung von Duplikaten.

Problematisch

Handschriftliche Notizen als Foto, veraltete Dokumente ohne Versionierung, identische Inhalte in mehreren Versionen ohne klare Kennzeichnung.

Die Faustregel: Was ein Mensch nicht innerhalb von 30 Sekunden als nützlich oder veraltet einordnen kann, wird auch die KI nicht einordnen können.

Die 3-Schritte-Kur für Ihre Daten

Bevor Sie in teure Software investieren, investieren Sie ein paar Tage in digitale Hygiene. Hier ist der Plan:

1. Mut zur Lücke (Löschen & Archivieren)

Die KI unterscheidet nicht zwischen “Wichtig” und “Altpapier”. Wenn Sie die Preisliste von 2019 noch im Zugriff haben, ist sie für die KI genauso relevant wie die von 2026.

  • Verschiebe alles, was älter als X Jahre ist, in einen Ordner “Archiv” (und verbiete der KI den Zugriff darauf).
  • Lösche Duplikate. Es darf nur eine “Single Source of Truth” geben, eine einzige Quelle der Wahrheit.

Das klingt nach mehr Arbeit als es ist. Oft reicht ein halber Tag pro Abteilung, um die schlimmsten Altlasten zu beseitigen.

2. Sprechende Namen

Eine Datei namens Doku_neu.docx ist wertlos. Nenne sie Bedienungsanleitung_Modell_X200_2025.docx.

Damit geben Sie der KI (und Ihren menschlichen Kollegen) den Kontext, den sie braucht. Besonders wichtig: das Jahr oder Datum im Dateinamen. So kann die KI im Zweifel das aktuellste Dokument bevorzugen.

3. Maschinenlesbarkeit

Viele Firmen haben Gigabytes an eingescannten Lieferscheinen, oft schief kopiert, handschriftlich bekritzelt und als Bild gespeichert. Eine normale KI kann das nicht lesen.

Sorgen Sie dafür, dass Ihre Dokumente durchsuchbare Texte sind (OCR). Was der Computer nicht lesen kann, existiert für ihn nicht. Wie Sie Ihre Dokumente optimal für KI aufbereiten, zeigt unser Artikel Markdown-Dateien: Wissensmanagement für KI. Für die automatische Umwandlung von PDFs in maschinenlesbaren Text empfehlen wir Docling, ein kostenloses Open-Source-Tool von IBM Research, das neben PDFs auch Word-, PowerPoint- und Excel-Dateien verarbeitet.

Was ist eine "Single Source of Truth"?

Das ist der eine Ort, an dem eine Information verbindlich und aktuell gespeichert ist. Nicht "Preisliste_2026_final_v2_neu.xlsx" auf drei verschiedenen Laufwerken, sondern eine einzige Datei, die alle anderen ersetzt. Jede Version daneben ist eine potenzielle Fehlerquelle für Ihre KI.

RAG richtig vorbereiten: Was 2026 anders ist

Wenn Sie eine RAG-Lösung für Ihr Firmenwissen aufbauen möchten, lohnt es sich, die aktuellen Best Practices zu kennen. Die Technik hat sich weiterentwickelt, aber die Grundregel bleibt: Datenqualität schlägt Modellgröße.

Chunking nach Bedeutung

Dokumente nicht nach Zeichenzahl zerteilen, sondern an logischen Abschnitten wie Überschriften, Kapiteln oder Themenblöcken. 256 bis 512 Tokens für Faktenabfragen, bis zu 1.024 Tokens für komplexere Zusammenhänge.

Embedding-Modell wichtiger als Chunk-Größe

Aktuelle Studien zeigen: Die Wahl des richtigen Embedding-Modells hat mehr Einfluss auf die Ergebnisqualität als die Chunk-Größe oder die Anzahl der abgerufenen Dokumente. Für deutschsprachige Firmendaten lohnt sich ein spezialisiertes Modell.

Was sich nicht geändert hat: Für eine nützliche Unternehmens-KI brauchen Sie keine Millionen Datensätze. 50 sauber gepflegte PDFs reichen oft aus, um einen echten Mehrwert im Tagesgeschäft zu schaffen.

Wo fangen Sie am sinnvollsten an?

Nicht jede Abteilung ist gleich wichtig. Fang dort an, wo KI den größten Nutzen bringen soll, und konzentriere die Aufräumarbeit zuerst auf diesen Bereich.

Typische Startpunkte in Unternehmen:

  • Kundendienst und Support: Produktdokumentationen, FAQs, Reklamationsformulare.
  • Einkauf und Produktion: Lieferanteninfos, technische Spezifikationen, Wartungshandbücher.
  • Vertrieb: Aktuelle Preislisten, Produktbeschreibungen, Angebotsvorlagen.

Wenn dieser Bereich sauber ist, können Sie die KI dort einführen, erste Ergebnisse messen und dann den Aufwand auf weitere Bereiche ausweiten.

Fazit: Erst aufräumen, dann automatisieren

Es klingt unsexy: Aufräumen statt Science-Fiction. Aber es ist der einzige Weg, der funktioniert.

Betrachte die Einführung von KI nicht als IT-Projekt, sondern als Chance, endlich die Altlasten loszuwerden, die Sie schon seit Jahren nerven.

Eine saubere Datenbasis ist wie ein gut sortierter Werkzeugkoffer: Sie greifen blind hinein und haben sofort das Richtige in der Hand. Die KI ist dann nur noch der Assistent, der Ihnen den Koffer hinterherträgt. Falls Sie Unterstützung bei der Datenaufbereitung brauchen, helfen wir Ihnen gerne dabei.

Übrigens: In unserer KI-Beratung beginnen wir oft genau hier, mit einer ehrlichen Bestandsaufnahme Ihrer Datenqualität, bevor wir über Tools und Lösungen sprechen. Unser KI-Readiness-Assessment zeigt Ihnen, wo Ihr Unternehmen steht und was die nächsten Schritte sind.

Sie möchten wissen, ob Ihre Datenbasis KI-tauglich ist?

Kein Verkaufsgespräch. Wir schauen uns gemeinsam an, was Sie haben, was fehlt und welche Schritte als nächstes sinnvoll wären.

Melden Sie sich bei uns
RC

Ralf Cornesse

KI-Berater & Trainer | Gründer von gewusst:KI

Wir helfen Unternehmen, KI sinnvoll einzusetzen. Praxisnah und herstellerunabhängig.