Open Responses: Der neue Standard gegen das KI-Gedächtnisproblem

Du hast gerade 20 Minuten damit verbracht, ChatGPT dein Projekt zu erklären. Die Branche, die Zielgruppe, die bisherigen Entscheidungen. Die KI liefert eine brauchbare Antwort. Du bist zufrieden. Am nächsten Tag öffnest du einen neuen Chat, und die KI hat alles vergessen. Komplett. Als hättet ihr euch nie unterhalten.

Dieses Gefühl kennt mittlerweile jeder, der regelmäßig mit KI arbeitet. Und es ist kein Fehler. Es ist ein grundlegendes Designprinzip.

Warum KI-Modelle alles vergessen

Sprachmodelle wie ChatGPT, Claude oder Gemini funktionieren grundlegend anders als ein menschliches Gehirn. Ein Mensch speichert Erfahrungen dauerhaft. Ein Sprachmodell nicht.

Stell dir das so vor: Du rufst bei einer Hotline an. Der Mitarbeiter ist extrem kompetent, er versteht dein Anliegen sofort, gibt dir die perfekte Antwort. Aber sobald du auflegst, vergisst er alles. Beim nächsten Anruf musst du wieder bei null anfangen. Genau so arbeiten heutige KI-Modelle.

Der technische Grund: Sprachmodelle haben keinen dauerhaften Speicher. Sie verarbeiten Text in einem sogenannten Kontextfenster, einem begrenzten Arbeitsgedächtnis. Alles, was du in einer Sitzung schreibst, landet dort. Aber wenn die Sitzung endet, wird das Fenster geleert. Das Modell selbst verändert sich nicht. Es lernt nichts dazu.

Das heißt konkret: Jede neue Konversation startet bei null. Die KI weiß nicht, was du gestern gefragt hast, welche Entscheidungen getroffen wurden oder welchen Kontext du aufgebaut hast.

Warum das ein echtes Problem ist

Für eine schnelle Frage zwischendurch ist das kein Drama. Aber sobald du KI ernsthaft in Arbeitsprozessen einsetzt, wird das Vergessen zum Engpass.

Ein Beispiel aus der Praxis: Du nutzt KI, um Kundenanfragen zu beantworten. Die KI soll wissen, welche Produkte ihr führt, welche Konditionen gelten und wie der Reklamationsprozess läuft. In einer klassischen Chat-Sitzung musst du das alles jedes Mal neu erklären, oder du kopierst einen riesigen Textblock in jede Konversation rein.

Das Problem verschärft sich, wenn die KI nicht nur antworten, sondern eigenständig handeln soll. Stell dir vor, du willst einen KI-Agenten bauen, der:

Deine E-Mails nach Anfragen durchsucht
Die relevanten Kundendaten nachschlägt
Einen Antwortentwurf schreibt
Das Ergebnis in deinem CRM speichert

Das sind vier Schritte, die aufeinander aufbauen. Das Ergebnis von Schritt 1 braucht die KI in Schritt 2. Der Kontext aus Schritt 3 muss in Schritt 4 noch vorhanden sein. In der bisherigen Welt der Chat-APIs ist das erstaunlich umständlich, weil diese APIs für einfache Frage-Antwort-Dialoge gebaut wurden, nicht für mehrstufige Arbeitsprozesse.

Immer längere Kontextfenster, ein teures Pflaster

Die Antwort der KI-Anbieter auf das Gedächtnisproblem war bisher: Macht das Kontextfenster größer. Googles Gemini bietet mittlerweile ein Kontextfenster von über einer Million Tokens. Das sind grob gerechnet mehrere hundert Seiten Text, die das Modell gleichzeitig “im Kopf” behalten kann.

Klingt nach einer Lösung. Ist es aber nur bedingt.

Erstens: Mehr Kontext kostet Geld. Jeder Token, den du in das Kontextfenster packst, wird berechnet. Wenn du bei jeder Anfrage 50 Seiten Firmenkontext mitschickst, explodieren die Kosten.

Zweitens: Mehr Kontext heißt nicht besseres Verständnis. Studien zeigen, dass Sprachmodelle bei sehr langen Kontexten dazu neigen, Informationen in der Mitte zu “übersehen”, das sogenannte “Lost in the Middle”-Problem. Nur weil das Fenster groß genug ist, heißt das nicht, dass die KI alle Informationen gleich gut nutzt.

Drittens: Das eigentliche Problem bleibt. Auch ein riesiges Kontextfenster wird nach der Sitzung geleert. Es ist wie ein größerer Schreibtisch: Du kannst mehr Unterlagen gleichzeitig ausbreiten, aber wenn du abends nach Hause gehst, räumt jemand alles weg.

Was fehlt, ist kein größerer Schreibtisch. Was fehlt, ist ein System, in dem die KI eigenständig arbeiten, Werkzeuge nutzen und Zwischenergebnisse festhalten kann, ohne dass du bei jedem Schritt den gesamten Kontext neu liefern musst.

Open Responses: Ein neuer Standard für KI-Agenten

Genau hier setzt Open Responses an, eine offene Spezifikation, die OpenAI im Februar 2026 veröffentlicht hat. Und das Besondere: Es ist kein Alleingang. Die Spezifikation wird von einem breiten Bündnis der KI-Branche unterstützt:

NVIDIA (Hardware und Infrastruktur)
Hugging Face (Open-Source-Modelle)
Ollama (lokale KI)
Vercel (Web-Infrastruktur)
Databricks (Datenplattformen)
LM Studio (lokale Modelle)
OpenRouter (Multi-Provider-Routing)
vLLM (Open-Source-Inference)
Llama Stack (Metas KI-Ökosystem)

Dass sich Konkurrenten auf einen gemeinsamen Standard einigen, ist in der KI-Branche alles andere als selbstverständlich. Bisher hat jeder Anbieter seine eigene API-Struktur, wer zwischen Modellen wechseln wollte, musste jedes Mal den Code umschreiben.

Was ist Open Responses konkret?

Open Responses definiert ein einheitliches Schema dafür, wie KI-Modelle Anfragen empfangen, Zwischenschritte dokumentieren und Ergebnisse zurückliefern. Der entscheidende Unterschied zur bisherigen Chat-Completions-API: Open Responses ist nicht für Dialoge gebaut, sondern für agentenbasierte Arbeitsabläufe.

Drei Kernkonzepte machen den Unterschied:

1. Items statt Messages: Statt einfacher Nachrichten gibt es “Items”, atomare Einheiten, die nicht nur Text enthalten, sondern auch Werkzeugaufrufe, Ergebnisse und Denkschritte. Das Modell dokumentiert damit seinen gesamten Arbeitsprozess.

2. Eingebaute Werkzeugnutzung: Die KI kann innerhalb einer einzigen Anfrage mehrere Werkzeuge nacheinander aufrufen, Daten suchen, verarbeiten, weiterleiten, ohne dass du als Entwickler jeden einzelnen Schritt orchestrieren musst.

3. Sichtbares Denken: Das Modell kann seine Überlegungen offenlegen: als Rohtext, als geschützte (verschlüsselte) Inhalte oder als Zusammenfassung. Du siehst also, warum die KI eine Entscheidung getroffen hat.

Vorher vs. Nachher: Was sich in der Praxis ändert

Damit das greifbar wird, hier ein konkretes Beispiel. Du willst, dass eine KI die Quartalszahlen aus einem Dokument sucht, zusammenfasst und das Ergebnis per E-Mail verschickt.

Vorher: Chat Completions (der bisherige Weg)

Schritt 1: Du schickst den Auftrag an die KI
           → KI antwortet: "Ich bräuchte Zugriff auf das Dokument."

Schritt 2: Du rufst die Dokumentensuche selbst auf,
           schickst das Ergebnis zurück an die KI
           → KI antwortet mit einer Zusammenfassung

Schritt 3: Du nimmst die Zusammenfassung,
           rufst die E-Mail-API selbst auf

Schritt 4: Du schickst die Bestätigung an die KI
           → KI sagt: "Erledigt!"

Du bist die Schaltzentrale. Du rufst bei jedem Schritt die KI auf, nimmst das Ergebnis entgegen, rufst das nächste Werkzeug auf und schickst alles wieder zurück. Bei jedem Schritt musst du den gesamten bisherigen Verlauf mitschicken, damit die KI den Kontext nicht verliert. Das sind vier API-Aufrufe, vier Mal Kontext mitschleppen, vier Mal Fehlerbehandlung.

Nachher: Open Responses

Schritt 1: Du schickst den Auftrag an die KI
           + definierst die verfügbaren Werkzeuge
              (Dokumentensuche, E-Mail-Versand)

           → KI arbeitet eigenständig:
             1. Ruft Dokumentensuche auf
             2. Liest das Ergebnis
             3. Fasst die Zahlen zusammen
             4. Ruft E-Mail-Versand auf
             5. Liefert dir das Endergebnis
                inkl. aller Zwischenschritte

Ein API-Aufruf. Die KI übernimmt die Steuerung. Sie entscheidet selbst, welches Werkzeug sie wann braucht, verarbeitet die Ergebnisse und macht weiter, bis die Aufgabe erledigt ist. Du bekommst am Ende nicht nur das Ergebnis, sondern auch eine nachvollziehbare Dokumentation jedes Zwischenschritts.

Der Unterschied ist fundamental: Statt eines Assistenten, dem du jeden Handgriff ansagen musst, hast du einen Mitarbeiter, der einen Auftrag entgegennimmt und ihn eigenständig abarbeitet.

Die großen Vorteile

Anbieterunabhängigkeit. Du schreibst deinen Code einmal und kannst zwischen OpenAI, Ollama, Hugging Face oder jedem anderen Anbieter wechseln, der die Spezifikation unterstützt. Kein Vendor Lock-in mehr. Wenn morgen ein besseres Open-Source-Modell erscheint, tauschst du es aus, ohne eine Zeile Code zu ändern.

Weniger Komplexität. Bisher musstest du als Entwickler die gesamte Orchestrierung selbst bauen: Welches Werkzeug wird wann aufgerufen? Was passiert bei einem Fehler? Wie bleibt der Kontext erhalten? Open Responses verlagert diese Logik in die API. Dein Code wird kürzer und weniger fehleranfällig.

Nachvollziehbarkeit. Jeder Zwischenschritt ist dokumentiert. Du kannst exakt nachvollziehen, warum die KI eine bestimmte Entscheidung getroffen hat. Für regulierte Branchen, Gesundheitswesen, Kanzleien, Finanzdienstleistungen, ist das entscheidend.

Lokale KI wird erstklassig. Weil Ollama, vLLM und LM Studio die Spezifikation unterstützen, funktionieren agentenbasierte Workflows nicht nur mit Cloud-Diensten, sondern auch mit lokalen Modellen. Deine Daten bleiben in deinem Netzwerk, und du bekommst trotzdem die gleiche Funktionalität.

Offener Standard statt Insellösungen. Jeder Anbieter hat bisher sein eigenes Format für Werkzeugaufrufe, Streaming und Agenten-Workflows erfunden. Open Responses schafft eine gemeinsame Sprache. Das reduziert den Aufwand für Entwickler und senkt die Einstiegshürde für Unternehmen.

Ausblick: Wohin die Reise geht

Open Responses ist der erste ernstzunehmende Versuch, eine gemeinsame Infrastruktur für KI-Agenten zu schaffen. Wenn sich der Standard durchsetzt, und die breite Unterstützung spricht dafür, könnte das die Art verändern, wie Unternehmen KI einsetzen.

Kurzfristig wird es einfacher, zwischen Anbietern zu wechseln. Unternehmen müssen sich nicht mehr früh auf einen Anbieter festlegen und können flexibler reagieren, wenn sich der Markt verändert.

Mittelfristig könnten standardisierte KI-Agenten alltägliche Geschäftsprozesse übernehmen: Rechnungen prüfen, Berichte erstellen, Kundendaten pflegen. Nicht als Science-Fiction, sondern als verlässliche Werkzeuge, die in bestehende Software integriert werden.

Langfristig stellt sich die Frage, ob Open Responses auch das dauerhafte Gedächtnisproblem adressieren wird. Die Spezifikation löst heute vor allem das Problem der Arbeitsschritte innerhalb einer Sitzung. Aber ein echtes Langzeitgedächtnis, dass die KI sich morgen erinnert, was heute besprochen wurde, ist damit noch nicht gelöst. Hier werden Standards für persistenten Speicher und Wissensgraphen der nächste logische Schritt sein.

Was man noch ergänzen könnte

Einige Aspekte fehlen in der aktuellen Spezifikation oder sind noch in Entwicklung:

Persistenter Speicher: Ein standardisiertes Format, um Wissen und Kontext sitzungsübergreifend zu speichern. Aktuell definiert Open Responses nur, wie Agenten innerhalb einer Anfrage arbeiten.
Sicherheitsrichtlinien: Wenn KI-Agenten eigenständig Werkzeuge aufrufen, wer kontrolliert die Berechtigungen? Ein Rechte- und Rollensystem für Agenten fehlt bisher.
Monitoring und Audit: Für den produktiven Einsatz brauchen Unternehmen Dashboards und Logs, die zeigen, was ihre KI-Agenten tun. Die Spezifikation liefert die Rohdaten, aber keine Standards für die Auswertung.
Fehlerbehandlung: Was passiert, wenn ein Werkzeug nicht erreichbar ist? Wie geht der Agent mit Timeouts um? Hier fehlen noch klare Konventionen.
Kosten-Transparenz: Wenn ein Agent in einer einzigen Anfrage zehn Werkzeuge aufruft, kann das teuer werden. Ein Standard für Kosten-Limits und Budget-Kontrolle wäre sinnvoll.

Open Responses ist kein fertiges Produkt, es ist eine Grundlage. Aber es ist die richtige Grundlage zur richtigen Zeit. Die KI-Branche braucht gemeinsame Standards, wenn KI-Agenten den Sprung von der Demo in den Arbeitsalltag schaffen sollen.

Du willst verstehen, wie KI-Agenten in deinem Unternehmen konkret aussehen könnten? Wirf einen Blick auf unsere KI-Lösungen für Unternehmen oder starte mit unserem KI-Grundlagen-Workshop, um ein solides Fundament aufzubauen.