Zum Inhalt springen
M

Mistral Small 4: KI-Tool Test & Bewertung

4.5
Sprachmodelle Freemium Open Source (Apache 2.0) / API: $0,15/M Input, $0,60/M Output Hybrid DSGVO-konform Open Source

Mistral Small 4 ist ein Mixture-of-Experts-Modell von Mistral AI mit 119 Milliarden Parametern, von denen pro Token nur etwa 6 Milliarden aktiv sind. Das Modell vereint drei bisher getrennte Modellfamilien in einem Paket: Reasoning (Magistral), Vision (Pixtral) und Coding (Devstral). Verfügbar unter Apache 2.0 mit 256K Kontextfenster und konfigurierbarer Reasoning-Tiefe pro Anfrage.

Zuletzt aktualisiert: 20. März 2026

Ein Modell für Reasoning, Bildanalyse und Code-Generierung gleichzeitig, das klingt nach einem Kompromiss, der nichts richtig kann. Mistral Small 4 zeigt, dass der Ansatz funktioniert: Das Modell erreicht Platz 1 beim Long-Context Reasoning Benchmark (AA-LCR) und liefert dabei 3,5-mal kürzere Antworten als vergleichbare Modelle. Der Trick ist die MoE-Architektur mit 128 Experten, von denen pro Token nur 4 aktiv sind. Das hält die Inferenzkosten niedrig, obwohl das Modell insgesamt 119 Milliarden Parameter hat.

Wichtigste Funktionen

  • Konfigurierbares Reasoning: Über den Parameter reasoning_effort steuern Sie pro Anfrage, wie tief das Modell nachdenken soll. none liefert schnelle Antworten ohne Chain-of-Thought, high aktiviert schrittweises Reasoning für komplexe Aufgaben. Sie brauchen kein separates Reasoning-Modell mehr.
  • Multimodale Verarbeitung: Mistral Small 4 versteht Text und Bilder, extrahiert Text per OCR mit Bounding-Box-Erkennung und beantwortet Fragen zu Dokumenten. Bilder, Screenshots und gescannte PDFs lassen sich direkt im Prompt analysieren.
  • Agentic Coding: Die Coding-Fähigkeiten stammen aus der Devstral-Linie. Das Modell kann Code schreiben, refactorn, Fehler analysieren und Fill-in-the-Middle-Completions liefern. Auf LiveCodeBench erreicht es einen Score von 0,636.
  • 256K Kontextfenster: 256.000 Tokens Kontext, also etwa 190.000 Wörter. Lange Codebases, umfangreiche Verträge oder mehrstufige Recherchen passen in einen einzigen Prompt. Bei Long-Context-Aufgaben schneidet das Modell besser ab als alle Konkurrenten im AA-LCR Benchmark.
  • MoE-Effizienz: 128 Experten, 4 aktiv pro Token, ergibt ~6B aktive Parameter bei 119B Gesamtgröße. Das bedeutet 40 Prozent weniger Latenz und dreimal mehr Anfragen pro Sekunde im Vergleich zum Vorgänger Mistral Small 3.

Preise und Tarife

Die Modellgewichte stehen unter Apache 2.0 auf Hugging Face zum Download bereit. Self-Hosting ist kostenlos, Sie zahlen nur für die Hardware. Über die Mistral-API kostet das Modell $0,15 pro Million Input-Tokens und $0,60 pro Million Output-Tokens. Das ist deutlich günstiger als vergleichbare proprietäre Modelle mit ähnlichem Funktionsumfang. Alternativ ist Mistral Small 4 auch über OpenRouter und NVIDIA NIM verfügbar, jeweils mit eigener Preisstruktur. Für den lokalen Betrieb gibt es quantisierte Varianten: FP8, NVFP4 und GGUF-Formate für llama.cpp, vLLM und LM Studio.

Für wen ist Mistral Small 4 geeignet?

  • Teams, die ein Modell für alles suchen: Wer bisher separate Modelle für Reasoning, Vision und Coding einsetzen, kann mit Mistral Small 4 auf ein einziges Deployment konsolidieren. Das spart Infrastrukturkosten und vereinfacht das Routing.
  • Unternehmen mit DSGVO-Anforderungen: Mistral ist ein europäisches Unternehmen aus Paris. Die API-Server können in Europa betrieben werden. Beim Self-Hosting verlassen keine Daten die eigene Infrastruktur. Apache 2.0 erlaubt kommerzielle Nutzung ohne Einschränkungen.
  • Entwickler, die Long-Context-Aufgaben automatisieren: 256K Tokens Kontext und konfigurierbare Reasoning-Tiefe machen das Modell interessant für Pipelines, die große Dokumente verarbeiten, Code analysieren oder mehrstufige Recherchen durchführen.

DSGVO und Datenschutz

Mistral AI hat seinen Sitz in Paris und ist damit ein europäisches Unternehmen. Die API kann über europäische Server genutzt werden. Beim Self-Hosting verlassen keine Daten Ihre Infrastruktur. Die Apache-2.0-Lizenz erlaubt den Betrieb ohne Einschränkungen. Für Unternehmen, die Wert auf Datenhoheit legen, ist das Self-Hosting-Szenario die sicherste Option: Modell herunterladen, auf eigener Hardware betreiben, fertig. Die Hardware-Anforderungen sind allerdings hoch (mindestens 4x NVIDIA H100), sodass für kleinere Teams die API der pragmatischere Weg ist.

Alternativen zu Mistral Small 4

  • Qwen3.5-35B-A3B: Deutlich kleiner (35B, 3B aktiv), läuft auf Consumer-Hardware wie MacBooks. Ebenfalls multimodal und Apache 2.0, aber weniger Reasoning-Power und kleineres Kontextfenster.
  • Google Gemma 4: Googles offene Modellfamilie mit 26B MoE und 31B Dense. Apache 2.0 Lizenz, 256K Context, nativ multimodal.

Vorteile

  • Drei Fähigkeiten in einem Modell: Reasoning, Vision und Coding
  • Nur ~6B Parameter aktiv pro Token, trotzdem 119B Gesamtkapazität
  • 256K Kontextfenster, Platz 1 bei Long-Context Reasoning (AA-LCR)
  • Apache 2.0 Lizenz, europäischer Anbieter (Paris)

Nachteile

  • Self-Hosting braucht Server-Hardware (min. 4x H100 oder 2x H200)
  • Bei spezialisierten Reasoning-Benchmarks hinter dedizierten Reasoning-Modellen
  • Quantisierte Varianten (GGUF) noch eingeschränkt verfügbar

Anwendungsgebiete

Multimodale Dokumentenanalyse mit OCRAgentic Coding und Code-GenerierungLong-Context-Aufgaben bis 256K TokensReasoning-Aufgaben mit konfigurierbarer Tiefe