Zum Inhalt springen
N

Nemotron 3 Super – KI-Tool Test & Bewertung

4.0
Sprachmodelle Kostenlos Kostenlos (Open Weights) / API über verschiedene Anbieter Hybrid Open Source

Nemotron 3 Super ist NVIDIAs neuestes Open-Source-Sprachmodell, das eine hybride Architektur aus Mamba-2, Transformer und Mixture-of-Experts (MoE) kombiniert. Mit 120 Milliarden Parametern insgesamt, aber nur 12 Milliarden aktiven Parametern pro Anfrage, erreicht es eine außergewöhnliche Effizienz. Das native 1-Million-Token-Kontextfenster und der Fokus auf Agentic AI machen es besonders interessant für autonome Workflows und komplexe Reasoning-Aufgaben.

Zuletzt aktualisiert: 12. März 2026

Wer KI-Agenten produktiv einsetzen will, braucht Modelle, die mehrstufige Aufgaben eigenständig planen und ausführen können. Die meisten offenen Modelle eignen sich dafür nur bedingt. Nemotron 3 Super wurde gezielt für autonome Agenten-Workflows entwickelt. Auf dem PinchBench-Benchmark erreicht es 85,6 %, den besten Wert unter allen offenen Modellen, und läuft dank der MoE-Architektur mit einem Bruchteil des üblichen Rechenaufwands.

Wichtigste Funktionen

  • Hybride Mamba-Transformer-Architektur: Die Kombination aus Mamba-2 (State Space Models) und Transformer-Attention ist der Kern des Modells. Mamba-2 verarbeitet Sequenzen mit linearer Komplexität statt quadratisch – das macht das native 1-Million-Token-Kontextfenster überhaupt erst praktikabel. Die Transformer-Schichten sorgen an kritischen Stellen für präzise Kontextverknüpfung.
  • Mixture-of-Experts (MoE): Von den 120 Milliarden Parametern sind pro Anfrage nur 12 Milliarden aktiv. Das Modell wählt automatisch die relevanten Experten für jede Aufgabe – dadurch erreicht es die Qualität eines deutlich größeren Modells bei einem Bruchteil der Rechenkosten.
  • Agentic AI: Nemotron 3 Super wurde gezielt für autonome Agenten-Workflows optimiert. Auf dem PinchBench-Benchmark erreicht es 85,6 % – der beste Wert unter allen offenen Modellen. Es kann mehrstufige Aufgaben mit Tool-Use und Reasoning eigenständig abarbeiten.
  • 5x höherer Throughput: Im Vergleich zum Vorgänger (Nemotron Super) liefert das Modell den fünffachen Durchsatz. Gegenüber vergleichbaren Modellen wie Qwen 3.5-122B erreicht es bis zu 7,5x höheren Inference-Throughput.
  • Offene Trainingsdaten: NVIDIA veröffentlicht nicht nur die Modellgewichte, sondern auch die Trainingsdaten und Trainingsrezepte. Das ist ungewöhnlich und ermöglicht echte Reproduzierbarkeit und Anpassung.

Preise und Tarife

Nemotron 3 Super ist als Open-Weights-Modell kostenlos verfügbar. Für den lokalen Betrieb über Ollama oder vLLM fallen keine laufenden Kosten an. Über die NVIDIA API (build.nvidia.com) gibt es einen kostenlosen Testzugang. Für Produktiv-Einsatz ist das Modell über Cloud-Anbieter wie Google Vertex AI, Oracle Cloud, Coreweave und weitere verfügbar. Die Preise variieren je nach Anbieter.

Für wen ist Nemotron 3 Super geeignet?

  • KI-Entwickler und Agenten-Bauer: Wer autonome KI-Agenten entwickelt, bekommt mit Nemotron 3 Super ein Modell, das speziell für mehrstufige Tool-Use-Workflows optimiert ist. Die offenen Trainingsdaten und Rezepte ermöglichen tiefgreifende Anpassungen.
  • Unternehmen mit Throughput-Anforderungen: Wer viele parallele Anfragen verarbeiten muss, profitiert vom effizienten MoE-Ansatz. Mehr Anfragen pro GPU, niedrigere Kosten pro Token.
  • Datenschutzbewusste Nutzer: Über den lokalen Betrieb mit Ollama oder vLLM verlassen keine Daten den eigenen Rechner. Für den DSGVO-konformen Einsatz ist das der empfohlene Weg.

DSGVO und Datenschutz

Die Cloud-APIs (build.nvidia.com und andere Anbieter) laufen auf Servern in den USA. Für den Einsatz mit personenbezogenen Daten ist das in den meisten Fällen nicht DSGVO-konform. Da das Modell Open Weights ist, lässt es sich vollständig lokal oder auf eigenen europäischen Servern betreiben – in diesem Setup hast du volle Datenkontrolle. Beachte: Die volle 120B-Version benötigt leistungsfähige GPU-Hardware (z. B. NVIDIA A100 oder H100). Für den Betrieb auf Consumer-Hardware gibt es FP8-quantisierte Varianten.

Alternativen zu Nemotron 3 Super

  • Google Gemma 4: Googles offene Modellfamilie mit 26B MoE (3,8B aktiv) und 31B Dense. Apache 2.0 Lizenz, 256K Context, nativ multimodal.
  • Ollama: Die Plattform, um Nemotron 3 Super und andere Open-Source-Modelle lokal zu betreiben. Die ideale Ergänzung für den datenschutzkonformen Einsatz.
  • Claude: Proprietäres Modell mit ebenfalls großem Kontextfenster (bis 1M Tokens) und starkem Reasoning. Einfacher zu nutzen, aber nicht lokal betreibbar.

Vorteile

  • Open Weights mit offenen Trainingsdaten und Rezepten
  • Extrem effizient: 120B Parameter, nur 12B aktiv (MoE)
  • Natives 1-Million-Token-Kontextfenster
  • 5x höherer Throughput als Vorgänger
  • Lokal betreibbar über Ollama, vLLM, llama.cpp
  • Bestes offenes Modell für Agentic AI (PinchBench: 85,6 %)

Nachteile

  • Cloud-API nicht DSGVO-konform (US-Server)
  • NVIDIA Open Model License – nicht so permissiv wie MIT oder Apache 2.0
  • Volle 120B-Version benötigt leistungsfähige GPU-Hardware
  • Noch sehr neues Modell – Community und Ökosystem im Aufbau

Anwendungsgebiete

Agentic AI und autonome WorkflowsReasoning und AnalyseProgrammierungLokaler Betrieb via Ollama oder vLLMLange Dokumente und Kontexte (bis 1M Tokens)

Du nutzt Nemotron 3 Super?

Teile deine Erfahrung mit uns – wir nehmen dein Feedback in unsere Bewertung auf.