OpenAI Privacy Filter: KI-Tool Test & Bewertung
Der OpenAI Privacy Filter ist ein spezialisiertes 1,5-Milliarden-Parameter-Modell, das Namen, Adressen, Telefonnummern, E-Mails, URLs, Datumsangaben, Kontonummern und Passwörter in Texten erkennt und markiert. Er läuft komplett lokal auf der eigenen Hardware und ist Apache-2.0-lizenziert. Aktuell ist es eine Entwickler-Komponente, fertige Anwendungen mit Oberfläche fehlen noch.
Zuletzt aktualisiert: 28. April 2026
Vor dem Verarbeiten von Texten in einem Cloud-LLM stellt sich für jedes Unternehmen dieselbe Frage: wie verhindern, dass Kundennamen, E-Mail-Adressen oder Vertragszahlen über die Schnittstelle abfließen. Bisherige Lösungen sind entweder regelbasiert und damit blind für alles, was nicht ins Muster passt, oder selbst Cloud-Dienste, die das Problem nur verschieben. OpenAI Privacy Filter ist ein lokal laufendes Modell, das diese Lücke schließt. Allerdings ist das Modell heute eine Entwickler-Komponente, das fertige Werkzeug für den Schreibtisch muss noch jemand darum bauen.
Wichtigste Funktionen
- Kontextbasierte PII-Erkennung: Acht Kategorien werden direkt im Text markiert: Namen, Adressen, E-Mail-Adressen, Telefonnummern, URLs, Datumsangaben, Kontonummern und sonstige Geheimnisse wie Passwörter oder API-Schlüssel. Anders als reguläre Ausdrücke versteht das Modell, ob “Bonn” gerade eine Stadt oder ein Familienname ist.
- Komplett lokaler Betrieb: Das Modell läuft auf einem normalen Laptop. Mit GPU reichen rund 3 GB VRAM in BF16, auf CPU genügen 4 bis 8 GB RAM für mittellange Texte. Keine Daten verlassen das Gerät.
- Großes Kontextfenster: 128.000 Token reichen für Verträge mit mehreren hundert Seiten oder das Transkript eines zweistündigen Meetings in einem Durchgang. Es muss nichts künstlich segmentiert werden.
- Steuerbarer Schwärzungsgrad: Sie können das Modell vorsichtiger oder zurückhaltender einstellen, je nachdem, ob lieber zu viel oder zu wenig geschwärzt werden soll. Bei eigenen Datensätzen lässt sich zusätzlich nachjustieren.
- Markierung statt Neuerzeugung: Das Modell schreibt keinen neuen Text, sondern markiert nur die kritischen Stellen. Sie behalten den Originaltext und entscheiden selbst, wie geschwärzt, ersetzt oder pseudonymisiert wird.
Preise und Tarife
Der OpenAI Privacy Filter ist unter der Apache-2.0-Lizenz vollständig kostenlos, auch für kommerzielle Nutzung und ohne Verpflichtungen. Die einzigen Kosten entstehen für die Hardware, auf der das Modell läuft. Mit nur 50 Millionen aktiven Parametern pro Anfrage arbeitet das Modell auch auf einem normalen Bürorechner in akzeptabler Geschwindigkeit, eine GPU beschleunigt das Ergebnis spürbar, ist aber kein Muss. Wer bereits eine lokale KI-Infrastruktur betreibt, kann den Filter ohne zusätzliche Lizenz- oder API-Gebühren in bestehende Pipelines einbauen.
Für wen ist OpenAI Privacy Filter geeignet?
- Entwickler von KI-Lösungen: Wer eigene Anwendungen baut, die Nutzereingaben verarbeiten, kann den Filter in Vorverarbeitungsstufen, Logging-Layer oder Trainingsdaten-Pipelines einsetzen. Die Apache-2.0-Lizenz erlaubt auch die Auslieferung als Teil des eigenen Produkts.
- IT-Abteilungen mit Cloud-LLM-Nutzung: Wenn ChatGPT, Claude oder Gemini im Geschäftsalltag verwendet werden, kann ein internes Schwärzungs-Tool davorgesetzt werden. Mitarbeiter fügen Text ein, bekommen die bereinigte Version zurück und schicken erst die an die Cloud-API.
- Datenschutz-Anbieter und Berater: Bestehende Datenschutz- oder Compliance-Tools können den Filter integrieren und damit eine technische Vorverarbeitungsschicht anbieten, die bisher nur als teurer SaaS-Dienst verfügbar war. Für die direkte Nutzung durch Geschäftsführer und Sachbearbeiter fehlt dem Modell heute noch die Oberfläche.
DSGVO und Datenschutz
Da der Privacy Filter komplett lokal läuft, verlässt kein Text das eigene Gerät oder den eigenen Server. Damit ist das Tool selbst eine sehr datenschutzfreundliche Lösung. OpenAI weist allerdings ausdrücklich darauf hin, dass das Modell keine rechtssichere Anonymisierung garantiert: in sensiblen Bereichen wie Medizin, Recht, Finanzen oder Personalwesen bleibt eine menschliche Prüfung notwendig. Außerdem ist das Modell schwerpunktmäßig auf englischen Texten trainiert und zeigt bei deutschen oder nicht-lateinischen Texten Schwächen. Vor dem produktiven Einsatz empfehlen wir eine eigene Validierung an realistischen Beispielen aus Ihrem Anwendungsfeld.
Alternativen zu OpenAI Privacy Filter
- Gemma 4: Allzweck-LLM von Google, kann per Prompt PII erkennen und schwärzen. Flexibler einsetzbar, aber weniger zuverlässig und ressourcenhungriger als ein spezialisiertes Modell.
- GPT-OSS-120B: Größeres OpenAI-Modell mit allgemeiner Sprachfähigkeit. Kann das Schwärzen mit Anweisungen übernehmen, ist aber als Generator deutlich teurer im Betrieb als der Privacy Filter.
- Microsoft Presidio: Open-Source-Bibliothek von Microsoft mit regelbasierter und ML-basierter PII-Erkennung. Reifere Toolchain mit fertigen Schnittstellen, aber traditionell schwächer bei freiem Text als ein modernes Token-Classification-Modell.
Vorteile
- Apache-2.0-Lizenz, kommerziell nutzbar und anpassbar
- Läuft komplett lokal auf Laptop, Server oder im Browser, keine Datenübertragung
- 128.000 Token Kontextfenster, ganze Verträge in einem Durchgang
- Markiert nur die kritischen Stellen, schreibt keinen neuen Text
Nachteile
- Schwächen bei deutschen und nicht-lateinischen Texten, OpenAI empfiehlt menschliche Prüfung in sensiblen Bereichen
- Aktuell nur Entwickler-Komponente, weder Installer noch grafische Oberfläche
- Lädt nicht in LM Studio, weil Token-Classification statt Text-Generation