Open Responses: Der neue Standard gegen das KI-Gedächtnisproblem

Sie haben gerade 20 Minuten damit verbracht, ChatGPT Ihr Projekt zu erklären. Die Branche, die Zielgruppe, die bisherigen Entscheidungen. Die KI liefert eine brauchbare Antwort. Sie sind zufrieden. Am nächsten Tag öffnen Sie einen neuen Chat, und die KI hat alles vergessen. Komplett. Als hätten Sie sich nie unterhalten.

Dieses Gefühl kennt mittlerweile jeder, der regelmäßig mit KI arbeitet. Und es ist kein Fehler. Es ist ein grundlegendes Designprinzip.

Warum KI-Modelle alles vergessen

Sprachmodelle wie ChatGPT, Claude oder Gemini funktionieren grundlegend anders als ein menschliches Gehirn. Ein Mensch speichert Erfahrungen dauerhaft. Ein Sprachmodell nicht.

Es ist wie ein Anruf bei einer Hotline. Der Mitarbeiter ist extrem kompetent, versteht Ihr Anliegen sofort und gibt Ihnen die perfekte Antwort. Aber sobald Sie auflegen, vergisst er alles. Beim nächsten Anruf fangen Sie wieder bei null an. Genau so arbeiten heutige KI-Modelle.

Der technische Grund: Sprachmodelle haben keinen dauerhaften Speicher. Sie verarbeiten Text in einem sogenannten Kontextfenster, einem begrenzten Arbeitsgedächtnis. Alles, was Sie in einer Sitzung schreiben, landet dort. Aber wenn die Sitzung endet, wird das Fenster geleert. Das Modell selbst verändert sich nicht. Es lernt nichts dazu.

Konkret startet jede neue Konversation bei null. Die KI weiß nicht, was Sie gestern gefragt haben, welche Entscheidungen getroffen wurden oder welchen Kontext Sie aufgebaut haben.

Warum das ein echtes Problem ist

Für eine schnelle Frage zwischendurch ist das kein Drama. Aber sobald Sie KI ernsthaft in Arbeitsprozessen einsetzen, wird das Vergessen zum Engpass.

Ein Beispiel aus der Praxis: Sie nutzen KI, um Kundenanfragen zu beantworten. Die KI soll wissen, welche Produkte Sie führen, welche Konditionen gelten und wie der Reklamationsprozess läuft. In einer klassischen Chat-Sitzung müssen Sie das alles jedes Mal neu erklären, oder Sie kopieren einen riesigen Textblock in jede Konversation rein.

Das Problem verschärft sich, wenn die KI eigenständig handeln und nicht nur antworten soll. Ein KI-Agent könnte etwa:

Ihre E-Mails nach Anfragen durchsucht
Die relevanten Kundendaten nachschlägt
Einen Antwortentwurf schreibt
Das Ergebnis in Ihrem CRM speichert

Das sind vier Schritte, die aufeinander aufbauen. Das Ergebnis von Schritt 1 braucht die KI in Schritt 2. Der Kontext aus Schritt 3 muss in Schritt 4 noch vorhanden sein. In der bisherigen Welt der Chat-APIs ist das erstaunlich umständlich, weil diese APIs für einfache Frage-Antwort-Dialoge gebaut wurden, nicht für mehrstufige Arbeitsprozesse.

Immer längere Kontextfenster, ein teures Pflaster

Die Antwort der KI-Anbieter auf das Gedächtnisproblem war bisher: Macht das Kontextfenster größer. Googles Gemini hat mittlerweile ein Kontextfenster von über einer Million Tokens. Das sind grob gerechnet mehrere hundert Seiten Text, die das Modell gleichzeitig “im Kopf” behalten kann.

Klingt nach einer Lösung. Ist es aber nur bedingt.

Erstens: Mehr Kontext kostet Geld. Jeder Token, den Sie in das Kontextfenster packen, wird berechnet. Wenn Sie bei jeder Anfrage 50 Seiten Firmenkontext mitschicken, explodieren die Kosten.

Zweitens: Mehr Kontext heißt nicht besseres Verständnis. Bei sehr langen Kontexten neigen Sprachmodelle dazu, Informationen in der Mitte zu “übersehen”, das sogenannte “Lost in the Middle”-Problem. Nur weil das Fenster groß genug ist, heißt das nicht, dass die KI alle Informationen gleich gut nutzt.

Drittens: Das eigentliche Problem bleibt. Auch ein riesiges Kontextfenster wird nach der Sitzung geleert. Es ist wie ein größerer Schreibtisch: Sie können mehr Unterlagen gleichzeitig ausbreiten, aber wenn Sie abends nach Hause gehen, räumt jemand alles weg.

Was fehlt, ist kein größerer Schreibtisch. Was fehlt, ist ein System, in dem die KI eigenständig arbeiten, Werkzeuge nutzen und Zwischenergebnisse festhalten kann, ohne dass Sie bei jedem Schritt den gesamten Kontext neu liefern müssen.

Open Responses: Ein neuer Standard für KI-Agenten

Genau hier setzt Open Responses an, eine offene Spezifikation, die OpenAI im Februar 2026 veröffentlicht hat. Und das Besondere: Es ist kein Alleingang. Die Spezifikation wird von einem breiten Bündnis der KI-Branche unterstützt:

NVIDIA (Hardware und Infrastruktur)
Hugging Face (Open-Source-Modelle)
Ollama (lokale KI)
Vercel (Web-Infrastruktur)
Databricks (Datenplattformen)
LM Studio (lokale Modelle)
OpenRouter (Multi-Provider-Routing)
vLLM (Open-Source-Inference)
Llama Stack (Metas KI-Ökosystem)

Dass sich Konkurrenten auf einen gemeinsamen Standard einigen, ist in der KI-Branche alles andere als selbstverständlich. Bisher hat jeder Anbieter seine eigene API-Struktur, wer zwischen Modellen wechseln wollte, musste jedes Mal den Code umschreiben.

Was ist Open Responses konkret?

Open Responses definiert ein einheitliches Schema dafür, wie KI-Modelle Anfragen empfangen, Zwischenschritte dokumentieren und Ergebnisse zurückliefern. Anders als die bisherige Chat-Completions-API ist Open Responses für agentenbasierte Arbeitsabläufe gebaut, nicht für Dialoge.

Dahinter stehen drei Kernkonzepte:

1. Items statt Messages: Statt einfacher Nachrichten gibt es “Items”, atomare Einheiten, die neben Text auch Werkzeugaufrufe, Ergebnisse und Denkschritte enthalten. Das Modell dokumentiert damit seinen gesamten Arbeitsprozess.

2. Eingebaute Werkzeugnutzung: Die KI kann innerhalb einer einzigen Anfrage mehrere Werkzeuge nacheinander aufrufen, Daten suchen, verarbeiten, weiterleiten, ohne dass Sie als Entwickler jeden einzelnen Schritt orchestrieren müssen.

3. Sichtbares Denken: Das Modell kann seine Überlegungen offenlegen: als Rohtext, als geschützte (verschlüsselte) Inhalte oder als Zusammenfassung. Sie sehen also, warum die KI eine Entscheidung getroffen hat.

Vorher vs. Nachher: Was sich in der Praxis ändert

Damit das greifbar wird, hier ein konkretes Beispiel. Sie möchten, dass eine KI die Quartalszahlen aus einem Dokument sucht, zusammenfasst und das Ergebnis per E-Mail verschickt.

Vorher: Chat Completions (der bisherige Weg)

Schritt 1: Sie schicken den Auftrag an die KI
           → KI antwortet: "Ich bräuchte Zugriff auf das Dokument."

Schritt 2: Sie rufen die Dokumentensuche selbst auf,
           schicken das Ergebnis zurück an die KI
           → KI antwortet mit einer Zusammenfassung

Schritt 3: Sie nehmen die Zusammenfassung,
           rufen die E-Mail-API selbst auf

Schritt 4: Sie schicken die Bestätigung an die KI
           → KI sagt: "Erledigt!"

Sie sind die Schaltzentrale. Sie rufen bei jedem Schritt die KI auf, nehmen das Ergebnis entgegen, rufen das nächste Werkzeug auf und schicken alles wieder zurück. Bei jedem Schritt müssen Sie den gesamten bisherigen Verlauf mitschicken, damit die KI den Kontext nicht verliert. Das sind vier API-Aufrufe, vier Mal Kontext mitschleppen, vier Mal Fehlerbehandlung.

Nachher: Open Responses

Schritt 1: Sie schicken den Auftrag an die KI
           + definieren die verfügbaren Werkzeuge
              (Dokumentensuche, E-Mail-Versand)

           → KI arbeitet eigenständig:
             1. Ruft Dokumentensuche auf
             2. Liest das Ergebnis
             3. Fasst die Zahlen zusammen
             4. Ruft E-Mail-Versand auf
             5. Liefert Ihnen das Endergebnis
                inkl. aller Zwischenschritte

Ein API-Aufruf. Die KI übernimmt die Steuerung. Sie entscheidet selbst, welches Werkzeug sie wann braucht, verarbeitet die Ergebnisse und macht weiter, bis die Aufgabe erledigt ist. Sie bekommen am Ende das Ergebnis und zusätzlich eine nachvollziehbare Dokumentation jedes Zwischenschritts.

Statt eines Assistenten, dem Sie jeden Handgriff ansagen müssen, haben Sie einen Mitarbeiter, der einen Auftrag entgegennimmt und ihn eigenständig abarbeitet.

Die großen Vorteile

Anbieterunabhängigkeit. Sie schreiben Ihren Code einmal und können zwischen OpenAI, Ollama, Hugging Face oder jedem anderen Anbieter wechseln, der die Spezifikation unterstützt. Kein Vendor Lock-in mehr. Wenn morgen ein besseres Open-Source-Modell erscheint, tauschen Sie es aus, ohne eine Zeile Code zu ändern.

Weniger Komplexität. Bisher mussten Sie als Entwickler die gesamte Orchestrierung selbst bauen: Welches Werkzeug wird wann aufgerufen? Was passiert bei einem Fehler? Wie bleibt der Kontext erhalten? Open Responses verlagert diese Logik in die API. Ihr Code wird kürzer und weniger fehleranfällig.

Nachvollziehbarkeit. Jeder Zwischenschritt ist dokumentiert. Sie können exakt nachvollziehen, warum die KI eine bestimmte Entscheidung getroffen hat. Für regulierte Branchen wie Gesundheitswesen, Kanzleien oder Finanzdienstleistungen ist das unverzichtbar.

Lokale KI wird erstklassig. Weil Ollama, vLLM und LM Studio die Spezifikation unterstützen, funktionieren agentenbasierte Workflows auch mit lokalen Modellen, nicht nur mit Cloud-Diensten. Ihre Daten bleiben in Ihrem Netzwerk, und Sie bekommen trotzdem die gleiche Funktionalität.

Offener Standard statt Insellösungen. Jeder Anbieter hat bisher sein eigenes Format für Werkzeugaufrufe, Streaming und Agenten-Workflows erfunden. Open Responses schafft eine gemeinsame Sprache. Das reduziert den Aufwand für Entwickler und senkt die Einstiegshürde für Unternehmen.

Ausblick: Was als Nächstes kommt

Open Responses ist der erste ernstzunehmende Versuch, eine gemeinsame Infrastruktur für KI-Agenten zu schaffen. Wenn sich der Standard durchsetzt, und die breite Unterstützung spricht dafür, könnte das die Art verändern, wie Unternehmen KI einsetzen.

Kurzfristig wird es einfacher, zwischen Anbietern zu wechseln. Unternehmen müssen sich nicht mehr früh auf einen Anbieter festlegen und können flexibler reagieren, wenn sich der Markt verändert.

Mittelfristig könnten standardisierte KI-Agenten alltägliche Geschäftsprozesse übernehmen: Rechnungen prüfen, Berichte erstellen, Kundendaten pflegen. Sie werden zu verlässlichen Werkzeugen, die in bestehende Software integriert werden.

Langfristig stellt sich die Frage, ob Open Responses auch das dauerhafte Gedächtnisproblem adressieren wird. Die Spezifikation löst heute vor allem das Problem der Arbeitsschritte innerhalb einer Sitzung. Aber ein echtes Langzeitgedächtnis, dass die KI sich morgen erinnert, was heute besprochen wurde, ist damit noch nicht gelöst. Hier werden Standards für persistenten Speicher und Wissensgraphen der nächste logische Schritt sein.

Was in der Spezifikation noch fehlt

Einige Aspekte fehlen in der aktuellen Spezifikation oder sind noch in Entwicklung:

Persistenter Speicher: Ein standardisiertes Format, um Wissen und Kontext sitzungsübergreifend zu speichern. Aktuell definiert Open Responses nur, wie Agenten innerhalb einer Anfrage arbeiten.
Sicherheitsrichtlinien: Wenn KI-Agenten eigenständig Werkzeuge aufrufen, wer kontrolliert die Berechtigungen? Ein Rechte- und Rollensystem für Agenten fehlt bisher.
Monitoring und Audit: Für den produktiven Einsatz brauchen Unternehmen Dashboards und Logs, die zeigen, was ihre KI-Agenten tun. Die Spezifikation liefert die Rohdaten, aber keine Standards für die Auswertung.
Fehlerbehandlung: Was passiert, wenn ein Werkzeug nicht erreichbar ist? Wie geht der Agent mit Timeouts um? Hier fehlen noch klare Konventionen.
Kosten-Transparenz: Wenn ein Agent in einer einzigen Anfrage zehn Werkzeuge aufruft, kann das teuer werden. Ein Standard für Kosten-Limits und Budget-Kontrolle wäre sinnvoll.

Open Responses ist noch nicht fertig, liefert aber zur richtigen Zeit eine gemeinsame Grundlage. Die KI-Branche braucht solche Standards, wenn KI-Agenten den Sprung von der Demo in den Arbeitsalltag schaffen sollen.

Sie möchten verstehen, wie KI-Agenten in Ihrem Unternehmen konkret aussehen könnten? Werfen Sie einen Blick auf unsere KI-Lösungen für Unternehmen oder starten Sie mit unserem KI-Grundlagen-Workshop, um ein solides Fundament aufzubauen.

Wir zeigen Ihnen, wo KI in Ihrem Unternehmen wirtschaftlich sinnvoll ist.

Workshops und Vorträge, die Teams KI im Alltag sicher machen.

KI-Lösungen nach Anwendungsdomäne, unabhängig von der Technologie.

Unsere KI-Plattform für Unternehmen. Modular, lokal, DSGVO-konform.