Mit Qwen 3.6 stellt Alibaba nur noch ein einziges offen verfügbares Modell bereit. Die stärkere Variante Qwen 3.6 Plus bleibt der hauseigenen Cloud vorbehalten. Für Unternehmen ist damit klar abgegrenzt, was sich lokal und DSGVO-konform betreiben lässt. Den größten Sprung gegenüber dem Vorgänger macht das Modell bei Programmieraufgaben. In einem etablierten Test löst es fast drei von vier echten Entwickleraufgaben korrekt und übertrifft damit auch das ähnlich große Gemma 4 von Google deutlich. Stärker als bisher hält es außerdem den roten Faden, wenn ein KI-Assistent mehrere Schritte hintereinander erledigt, etwa eine Datei analysieren, daraus einen Entwurf erstellen und das Ergebnis anschließend in eine E-Mail einfügen.

Architektur und Spezifikationen

	Qwen 3.6 35B-A3B
Parameter gesamt	35 Milliarden
Aktive Parameter	3 Milliarden
Experten	256 (8 routed + 1 shared)
Layer	40
Hidden Dimension	2.048
Context Window	262.144 Tokens (mit YaRN bis ~1.010.000)
Architektur	Gated DeltaNet + Sparse MoE, mit Multi-Token Prediction
Lizenz	Apache 2.0

Die Architektur folgt dem Muster 10 × (3 × Gated DeltaNet → MoE + 1 × Gated Attention → MoE). Diese Hybridform liefert höheren Durchsatz und niedrigere Latenz als reine Transformer-Modelle gleicher Größe.

Benchmark-Ergebnisse

Benchmark	Qwen 3.6 35B-A3B	Qwen 3.5 35B-A3B
SWE-bench Verified	73,4 %	70,0 %
SWE-bench Multilingual	67,2 %	60,3 %
SWE-bench Pro	49,5 %	44,6 %
Terminal-Bench 2.0	51,5 %	40,5 %
NL2Repo	29,4 %	20,5 %
MMLU-Pro	85,2	85,3
AIME 2026	92,7	–
GPQA Diamond	86,0	–
MMMU (Vision)	81,7	–

Auf SWE-bench Verified schlägt Qwen 3.6 35B-A3B das größere Google-Modell Gemma 4-31B (52,0 %) um über 20 Punkte und ist damit eines der stärksten Open-Weight-Modelle für Coding-Aufgaben.

Wichtigste Funktionen

Agentic Coding: Trainiert auf Repository-Level-Reasoning und Frontend-Workflows. Kompatibel mit gängigen Agentenframeworks wie LangChain, LlamaIndex und dem hauseigenen Qwen-Agent.
Thinking Preservation: Neu in Qwen 3.6. Reasoning-Ketten aus früheren Schritten bleiben für Folgeschritte erhalten, was die Genauigkeit in mehrstufigen Agenten-Workflows deutlich erhöht.
Multi-Token Prediction (MTP): Sagt mehrere Tokens parallel voraus. In Kombination mit Speculative Decoding in SGLang oder vLLM steigt der Durchsatz spürbar.
Nativ multimodal: Text, Bilder und Videos werden im selben Modell verarbeitet. Vision-Benchmarks: MMMU 81,7, OmniDocBench 89,9, VideoMMU 83,7.
262K Context Window: Nativ 262.144 Tokens, mit YaRN-Scaling auf rund 1 Million erweiterbar. Genug für komplette Codebases oder umfangreiche Dokumentensammlungen.
Thinking Mode optional: Wie schon bei Qwen 3.5 lässt sich der Reasoning-Modus pro Anfrage ein- oder ausschalten.

Preise und Tarife

Qwen 3.6 35B-A3B ist vollständig kostenlos unter Apache 2.0 Lizenz verfügbar, ohne Einschränkungen für kommerzielle Nutzung. Kosten entstehen nur durch eigene Hardware. Auf Hugging Face stehen neben den Standard-Versionen auch FP8- und GGUF-Varianten von Unsloth zur Verfügung. Über Drittanbieter wie Alibaba Cloud, OpenRouter oder Together.ai ist das Modell auch per API nutzbar.

Hardware

Qwen 3.6 läuft mit etwas Optimierung auf Hardware, die in vielen Unternehmen bereits vorhanden ist. Eine gut ausgestattete Workstation reicht aus, ein Rechenzentrum braucht es dafür nicht.

Apple Silicon: Auf einem MacBook Pro oder Mac Studio mit 48 GB Arbeitsspeicher (M4 Max oder M5 Pro Max) liefert das Modell rund 80 Wörter pro Sekunde. Das fühlt sich im Chat flüssig an.
Windows- oder Linux-Workstation: Eine NVIDIA RTX 4090 mit 24 GB Grafikspeicher reicht für den interaktiven Einsatz. Antwortzeiten liegen deutlich über 100 Wörtern pro Sekunde.
Eigener Inferenz-Server: Wer mehrere Mitarbeiter gleichzeitig bedienen will, betreibt das Modell auf einer NVIDIA RTX PRO 6000 oder einer einzelnen H100 und kann darüber problemlos eine ganze Abteilung versorgen.

Für wen ist Qwen 3.6 geeignet?

Entwicklungsteams mit Coding-Fokus: Mit 73,4 % auf SWE-bench Verified ist Qwen 3.6 35B-A3B aktuell das stärkste Open-Weight-Modell für Coding und damit eine Alternative zu Cloud-APIs für sensible Codebases.
Unternehmen mit Datenschutzanforderungen: Vollständig lokal betreibbar, keine Telemetrie, keine externen Abhängigkeiten. Geeignet für Branchen mit strengen Compliance-Vorgaben wie Gesundheitswesen, Recht, Finanzen oder Behörden.
Teams, die agentische Workflows aufbauen: Thinking Preservation und nativer Tool-Use machen das Modell zu einer guten Basis für mehrstufige Agenten, etwa in Wissensmanagement- oder Automatisierungsprojekten.

DSGVO und Datenschutz

Qwen 3.6 35B-A3B läuft vollständig auf eigener Hardware. Es werden keine Daten an externe Server gesendet, keine Telemetrie erhoben. Die Apache 2.0 Lizenz erlaubt die uneingeschränkte kommerzielle Nutzung. Bei Nutzung über API-Anbieter wie Alibaba Cloud, OpenRouter oder Together.ai liegen die Server außerhalb der EU. Für personenbezogene oder vertrauliche Daten ist Self-Hosting die sicherere Wahl.

Alternativen zu Qwen 3.6

Google Gemma 4: Googles offene Modellfamilie aus vier Varianten, von Tablet-tauglich bis Workstation. Apache 2.0 Lizenz, sehr starke deutsche Sprachqualität und damit die erste Wahl für Texte und Kundenkommunikation.
GLM-5.1: Bei Programmieraufgaben rund 95 Prozent der Leistung von Claude Opus 4.6. Lokal nur auf einem Server mit mehreren Grafikkarten betreibbar, in den meisten Unternehmen also nur über die Cloud praktikabel.
Mistral Small 4: Europäisches Modell mit starker Mehrsprachigkeit. Apache 2.0 Lizenz, aber ohne Verständnis für Bilder und Videos.

Wir zeigen Ihnen, wo KI in Ihrem Unternehmen wirtschaftlich sinnvoll ist.

Workshops und Vorträge, die Teams KI im Alltag sicher machen.

KI-Lösungen nach Anwendungsdomäne, unabhängig von der Technologie.

Unsere KI-Plattform für Unternehmen. Modular, lokal, DSGVO-konform.

Qwen 3.6: KI-Tool Test & Bewertung

Architektur und Spezifikationen

Benchmark-Ergebnisse

Wichtigste Funktionen

Preise und Tarife

Hardware

Für wen ist Qwen 3.6 geeignet?

DSGVO und Datenschutz

Alternativen zu Qwen 3.6

Vorteile

Nachteile

Anwendungsgebiete

Ähnliche Tools

Google Gemma 4

GLM-4.7 Flash

GLM-5.1