Nemotron 3 Super – KI-Tool Test & Bewertung
Nemotron 3 Super ist NVIDIAs neuestes Open-Source-Sprachmodell, das eine hybride Architektur aus Mamba-2, Transformer und Mixture-of-Experts (MoE) kombiniert. Mit 120 Milliarden Parametern insgesamt, aber nur 12 Milliarden aktiven Parametern pro Anfrage, erreicht es eine außergewöhnliche Effizienz. Das native 1-Million-Token-Kontextfenster und der Fokus auf Agentic AI machen es besonders interessant für autonome Workflows und komplexe Reasoning-Aufgaben.
Zuletzt aktualisiert: 12. März 2026
Wer KI-Agenten produktiv einsetzen will, braucht Modelle, die mehrstufige Aufgaben eigenständig planen und ausführen können. Die meisten offenen Modelle eignen sich dafür nur bedingt. Nemotron 3 Super wurde gezielt für autonome Agenten-Workflows entwickelt. Auf dem PinchBench-Benchmark erreicht es 85,6 %, den besten Wert unter allen offenen Modellen, und läuft dank der MoE-Architektur mit einem Bruchteil des üblichen Rechenaufwands.
Wichtigste Funktionen
- Hybride Mamba-Transformer-Architektur: Die Kombination aus Mamba-2 (State Space Models) und Transformer-Attention ist der Kern des Modells. Mamba-2 verarbeitet Sequenzen mit linearer Komplexität statt quadratisch – das macht das native 1-Million-Token-Kontextfenster überhaupt erst praktikabel. Die Transformer-Schichten sorgen an kritischen Stellen für präzise Kontextverknüpfung.
- Mixture-of-Experts (MoE): Von den 120 Milliarden Parametern sind pro Anfrage nur 12 Milliarden aktiv. Das Modell wählt automatisch die relevanten Experten für jede Aufgabe – dadurch erreicht es die Qualität eines deutlich größeren Modells bei einem Bruchteil der Rechenkosten.
- Agentic AI: Nemotron 3 Super wurde gezielt für autonome Agenten-Workflows optimiert. Auf dem PinchBench-Benchmark erreicht es 85,6 % – der beste Wert unter allen offenen Modellen. Es kann mehrstufige Aufgaben mit Tool-Use und Reasoning eigenständig abarbeiten.
- 5x höherer Throughput: Im Vergleich zum Vorgänger (Nemotron Super) liefert das Modell den fünffachen Durchsatz. Gegenüber vergleichbaren Modellen wie Qwen 3.5-122B erreicht es bis zu 7,5x höheren Inference-Throughput.
- Offene Trainingsdaten: NVIDIA veröffentlicht nicht nur die Modellgewichte, sondern auch die Trainingsdaten und Trainingsrezepte. Das ist ungewöhnlich und ermöglicht echte Reproduzierbarkeit und Anpassung.
Preise und Tarife
Nemotron 3 Super ist als Open-Weights-Modell kostenlos verfügbar. Für den lokalen Betrieb über Ollama oder vLLM fallen keine laufenden Kosten an. Über die NVIDIA API (build.nvidia.com) gibt es einen kostenlosen Testzugang. Für Produktiv-Einsatz ist das Modell über Cloud-Anbieter wie Google Vertex AI, Oracle Cloud, Coreweave und weitere verfügbar. Die Preise variieren je nach Anbieter.
Für wen ist Nemotron 3 Super geeignet?
- KI-Entwickler und Agenten-Bauer: Wer autonome KI-Agenten entwickelt, bekommt mit Nemotron 3 Super ein Modell, das speziell für mehrstufige Tool-Use-Workflows optimiert ist. Die offenen Trainingsdaten und Rezepte ermöglichen tiefgreifende Anpassungen.
- Unternehmen mit Throughput-Anforderungen: Wer viele parallele Anfragen verarbeiten muss, profitiert vom effizienten MoE-Ansatz. Mehr Anfragen pro GPU, niedrigere Kosten pro Token.
- Datenschutzbewusste Nutzer: Über den lokalen Betrieb mit Ollama oder vLLM verlassen keine Daten den eigenen Rechner. Für den DSGVO-konformen Einsatz ist das der empfohlene Weg.
DSGVO und Datenschutz
Die Cloud-APIs (build.nvidia.com und andere Anbieter) laufen auf Servern in den USA. Für den Einsatz mit personenbezogenen Daten ist das in den meisten Fällen nicht DSGVO-konform. Da das Modell Open Weights ist, lässt es sich vollständig lokal oder auf eigenen europäischen Servern betreiben – in diesem Setup hast du volle Datenkontrolle. Beachte: Die volle 120B-Version benötigt leistungsfähige GPU-Hardware (z. B. NVIDIA A100 oder H100). Für den Betrieb auf Consumer-Hardware gibt es FP8-quantisierte Varianten.
Alternativen zu Nemotron 3 Super
- Google Gemma 4: Googles offene Modellfamilie mit 26B MoE (3,8B aktiv) und 31B Dense. Apache 2.0 Lizenz, 256K Context, nativ multimodal.
- Ollama: Die Plattform, um Nemotron 3 Super und andere Open-Source-Modelle lokal zu betreiben. Die ideale Ergänzung für den datenschutzkonformen Einsatz.
- Claude: Proprietäres Modell mit ebenfalls großem Kontextfenster (bis 1M Tokens) und starkem Reasoning. Einfacher zu nutzen, aber nicht lokal betreibbar.
Vorteile
- Open Weights mit offenen Trainingsdaten und Rezepten
- Extrem effizient: 120B Parameter, nur 12B aktiv (MoE)
- Natives 1-Million-Token-Kontextfenster
- 5x höherer Throughput als Vorgänger
- Lokal betreibbar über Ollama, vLLM, llama.cpp
- Bestes offenes Modell für Agentic AI (PinchBench: 85,6 %)
Nachteile
- Cloud-API nicht DSGVO-konform (US-Server)
- NVIDIA Open Model License – nicht so permissiv wie MIT oder Apache 2.0
- Volle 120B-Version benötigt leistungsfähige GPU-Hardware
- Noch sehr neues Modell – Community und Ökosystem im Aufbau
Anwendungsgebiete
Du nutzt Nemotron 3 Super?
Teile deine Erfahrung mit uns – wir nehmen dein Feedback in unsere Bewertung auf.