Zum Inhalt springen
G

GPT-OSS-120B: KI-Tool Test & Bewertung

4.5
Sprachmodelle Kostenlos Kostenlos (Open Source) / API über OpenRouter ca. $0,039/M Input und $0,19/M Output-Tokens Hybrid DSGVO-konform Open Source

GPT-OSS-120B ist OpenAIs erster Schritt in Richtung Open Source: ein Reasoning-Modell mit 117 Milliarden MoE-Parametern, von denen pro Token nur 5,1 Milliarden aktiv sind. Mit MXFP4-Quantisierung läuft es auf einer einzigen H100 (80 GB). Es erreicht Near-Parity mit o4-mini und ist unter Apache 2.0 kommerziell nutzbar. API-Kosten über OpenRouter: $0,039 pro Million Input-Tokens.

Zuletzt aktualisiert: 14. März 2026

GPT-OSS-120B ist OpenAIs erstes Open-Weight-Modell und eine ernsthafte Alternative zu DeepSeek R1 und Qwen im Open-Source-Bereich. Wer bisher zögerte, KI-Infrastruktur auf proprietäre OpenAI-Modelle aufzubauen, bekommt damit eine Möglichkeit, OpenAI-Qualität auf eigener Hardware zu betreiben und die Daten im eigenen Netzwerk zu halten.

Wichtigste Funktionen

  • Reasoning auf o4-mini-Niveau: GPT-OSS-120B wurde mit Reinforcement Learning und Techniken aus OpenAIs Frontier-Modellen trainiert. Bei Competition Coding, Mathematik und allgemeinem Problemlösen erreicht es Near-Parity mit o4-mini. MMLU-Pro liegt bei 90,0 %.
  • Konfigurierbare Reasoning-Tiefe: Das Modell unterstützt drei Effort-Level (low, medium, high) für das Reasoning. So lassen sich der Rechenaufwand an die jeweilige Aufgabe anpassen, einfache Anfragen brauchen keine langen Chain-of-Thought-Ketten.
  • Native Tool-Nutzung: Web Search, Python Code Execution und strukturierte Outputs werden nativ unterstützt. Ideal für agentic Workflows, bei denen das Modell eigenständig Tools einsetzen.
  • Effiziente MoE-Architektur: Von 117 Milliarden Parametern sind pro Token nur 5,1 Milliarden aktiv. Mit MXFP4-Quantisierung passen das Modell auf eine einzige H100 mit 80 GB VRAM.
  • Kleinere Variante verfügbar: GPT-OSS-20B (21 Milliarden Parameter, 3,6 Milliarden aktiv) ist für Edge-Deployments und schnellere Inferenz bei einfacheren Aufgaben gedacht. API-Kosten über OpenRouter: rund $0,03 pro Million Input-Tokens.

Preise und Tarife

Das Modell ist unter Apache 2.0 kostenlos nutzbar, für Forschung, kommerzielle Produkte und Self-Hosting. Über OpenRouter ist GPT-OSS-120B ab ungefähr $0,039 pro Million Input-Tokens und $0,19 pro Million Output-Tokens verfügbar. Schnelle Inferenz bieten Anbieter wie Groq, Together.ai und Cerebras mit bis zu 2.000 Tokens pro Sekunde. Das Modell wurde am 5. August 2025 veröffentlicht.

Für wen ist GPT-OSS-120B geeignet?

  • Entwickler und technische Teams, die ein leistungsstarkes Reasoning-Modell selbst betreiben wollen, ohne Abhängigkeit von proprietären APIs und mit voller Kontrolle über die Daten.
  • Unternehmen mit Datenschutzanforderungen, die ein Top-Modell auf eigener Infrastruktur brauchen und keine personenbezogenen Daten an Dritte senden möchten.
  • KI-Startups und Plattform-Betreiber, die ein Open-Source-Modell kommerziell einsetzen wollen. Apache 2.0 erlaubt das ohne Einschränkungen.

DSGVO und Datenschutz

Beim Self-Hosting auf eigener Infrastruktur verlassen keine Daten Ihr Netzwerk. Das ist die DSGVO-konforme Variante. Über die OpenAI API oder Drittanbieter gelten die jeweiligen Datenschutzbestimmungen, bei US-Anbietern werden Daten an amerikanische Server gesendet. Für personenbezogene oder sensible Daten ist Self-Hosting die empfohlene Option. Für lokalen Betrieb werden 128 GB System-RAM oder 80 bis 96 GB VRAM benötigt.

Alternativen zu GPT-OSS-120B

  • Qwen 3.5 – Alibabas offene Modellfamilie mit nativ multimodaler Architektur (Text, Bild, Video) und Apache 2.0.
  • GLM-5 – Z.ais Flaggschiff (744B, 40B aktiv) mit stärkerem Agent Mode, aber deutlich mehr Hardware nötig.
  • GLM-4.7 – Ähnliche Leistungsklasse bei Coding, MIT-Lizenz, mit einer Flash-Variante für Consumer-Hardware.

Vorteile

  • Near-Parity mit o4-mini bei Reasoning, Code und Mathematik
  • Nur 5,1B aktive Parameter pro Token, extrem effizient für seine Leistungsklasse
  • Apache-2.0-Lizenz, kommerziell ohne Einschränkungen nutzbar
  • Läuft mit MXFP4-Quantisierung auf einer H100 (80 GB)
  • Native Tool-Nutzung und starkes Instruction Following

Nachteile

  • Nur Text, keine Bild- oder Videoverarbeitung
  • Benötigt 80 bis 96 GB VRAM oder 128 GB System-RAM für lokalen Betrieb
  • Erste Open-Source-Generation von OpenAI, Ökosystem noch jung
  • API noch nicht flächendeckend über alle Anbieter verfügbar

Anwendungsgebiete

ReasoningCode-GenerierungAgentic WorkflowsTool-NutzungMathematik