Qwen 3.6: KI-Tool Test & Bewertung
Qwen 3.6 35B-A3B ist Alibabas im April 2026 veröffentlichtes Open-Weight-Modell für agentisches Coding. Trotz 35 Milliarden Gesamtparametern werden pro Token nur 3 Milliarden aktiviert, was das Modell auf Consumer-Hardware lauffähig macht. Es ist nativ multimodal, unterstützt 262K Tokens Kontext und erreicht 73,4 % auf SWE-bench Verified. Apache 2.0 Lizenz.
Zuletzt aktualisiert: 18. April 2026
Mit Qwen 3.6 stellt Alibaba nur noch ein einziges offen verfügbares Modell bereit. Die stärkere Variante Qwen 3.6 Plus bleibt der hauseigenen Cloud vorbehalten. Für Unternehmen ist damit klar abgegrenzt, was sich lokal und DSGVO-konform betreiben lässt. Den größten Sprung gegenüber dem Vorgänger macht das Modell bei Programmieraufgaben. In einem etablierten Test löst es fast drei von vier echten Entwickleraufgaben korrekt und übertrifft damit auch das ähnlich große Gemma 4 von Google deutlich. Stärker als bisher hält es außerdem den roten Faden, wenn ein KI-Assistent mehrere Schritte hintereinander erledigt, etwa eine Datei analysieren, daraus einen Entwurf erstellen und das Ergebnis anschließend in eine E-Mail einfügen.
Architektur und Spezifikationen
| Qwen 3.6 35B-A3B | |
|---|---|
| Parameter gesamt | 35 Milliarden |
| Aktive Parameter | 3 Milliarden |
| Experten | 256 (8 routed + 1 shared) |
| Layer | 40 |
| Hidden Dimension | 2.048 |
| Context Window | 262.144 Tokens (mit YaRN bis ~1.010.000) |
| Architektur | Gated DeltaNet + Sparse MoE, mit Multi-Token Prediction |
| Lizenz | Apache 2.0 |
Die Architektur folgt dem Muster 10 × (3 × Gated DeltaNet → MoE + 1 × Gated Attention → MoE). Diese Hybridform liefert höheren Durchsatz und niedrigere Latenz als reine Transformer-Modelle gleicher Größe.
Benchmark-Ergebnisse
| Benchmark | Qwen 3.6 35B-A3B | Qwen 3.5 35B-A3B |
|---|---|---|
| SWE-bench Verified | 73,4 % | 70,0 % |
| SWE-bench Multilingual | 67,2 % | 60,3 % |
| SWE-bench Pro | 49,5 % | 44,6 % |
| Terminal-Bench 2.0 | 51,5 % | 40,5 % |
| NL2Repo | 29,4 % | 20,5 % |
| MMLU-Pro | 85,2 | 85,3 |
| AIME 2026 | 92,7 | – |
| GPQA Diamond | 86,0 | – |
| MMMU (Vision) | 81,7 | – |
Auf SWE-bench Verified schlägt Qwen 3.6 35B-A3B das größere Google-Modell Gemma 4-31B (52,0 %) um über 20 Punkte und ist damit eines der stärksten Open-Weight-Modelle für Coding-Aufgaben.
Wichtigste Funktionen
- Agentic Coding: Trainiert auf Repository-Level-Reasoning und Frontend-Workflows. Kompatibel mit gängigen Agentenframeworks wie LangChain, LlamaIndex und dem hauseigenen Qwen-Agent.
- Thinking Preservation: Neu in Qwen 3.6. Reasoning-Ketten aus früheren Schritten bleiben für Folgeschritte erhalten, was die Genauigkeit in mehrstufigen Agenten-Workflows deutlich erhöht.
- Multi-Token Prediction (MTP): Sagt mehrere Tokens parallel voraus. In Kombination mit Speculative Decoding in SGLang oder vLLM steigt der Durchsatz spürbar.
- Nativ multimodal: Text, Bilder und Videos werden im selben Modell verarbeitet. Vision-Benchmarks: MMMU 81,7, OmniDocBench 89,9, VideoMMU 83,7.
- 262K Context Window: Nativ 262.144 Tokens, mit YaRN-Scaling auf rund 1 Million erweiterbar. Genug für komplette Codebases oder umfangreiche Dokumentensammlungen.
- Thinking Mode optional: Wie schon bei Qwen 3.5 lässt sich der Reasoning-Modus pro Anfrage ein- oder ausschalten.
Preise und Tarife
Qwen 3.6 35B-A3B ist vollständig kostenlos unter Apache 2.0 Lizenz verfügbar, ohne Einschränkungen für kommerzielle Nutzung. Kosten entstehen nur durch eigene Hardware. Auf Hugging Face stehen neben den Standard-Versionen auch FP8- und GGUF-Varianten von Unsloth zur Verfügung. Über Drittanbieter wie Alibaba Cloud, OpenRouter oder Together.ai ist das Modell auch per API nutzbar.
Hardware
Qwen 3.6 läuft mit etwas Optimierung auf Hardware, die in vielen Unternehmen bereits vorhanden ist. Eine gut ausgestattete Workstation reicht aus, ein Rechenzentrum braucht es dafür nicht.
- Apple Silicon: Auf einem MacBook Pro oder Mac Studio mit 48 GB Arbeitsspeicher (M4 Max oder M5 Pro Max) liefert das Modell rund 80 Wörter pro Sekunde. Das fühlt sich im Chat flüssig an.
- Windows- oder Linux-Workstation: Eine NVIDIA RTX 4090 mit 24 GB Grafikspeicher reicht für den interaktiven Einsatz. Antwortzeiten liegen deutlich über 100 Wörtern pro Sekunde.
- Eigener Inferenz-Server: Wer mehrere Mitarbeiter gleichzeitig bedienen will, betreibt das Modell auf einer NVIDIA RTX PRO 6000 oder einer einzelnen H100 und kann darüber problemlos eine ganze Abteilung versorgen.
Für wen ist Qwen 3.6 geeignet?
- Entwicklungsteams mit Coding-Fokus: Mit 73,4 % auf SWE-bench Verified ist Qwen 3.6 35B-A3B aktuell das stärkste Open-Weight-Modell für Coding und damit eine Alternative zu Cloud-APIs für sensible Codebases.
- Unternehmen mit Datenschutzanforderungen: Vollständig lokal betreibbar, keine Telemetrie, keine externen Abhängigkeiten. Geeignet für Branchen mit strengen Compliance-Vorgaben wie Gesundheitswesen, Recht, Finanzen oder Behörden.
- Teams, die agentische Workflows aufbauen: Thinking Preservation und nativer Tool-Use machen das Modell zu einer guten Basis für mehrstufige Agenten, etwa in Wissensmanagement- oder Automatisierungsprojekten.
DSGVO und Datenschutz
Qwen 3.6 35B-A3B läuft vollständig auf eigener Hardware. Es werden keine Daten an externe Server gesendet, keine Telemetrie erhoben. Die Apache 2.0 Lizenz erlaubt die uneingeschränkte kommerzielle Nutzung. Bei Nutzung über API-Anbieter wie Alibaba Cloud, OpenRouter oder Together.ai liegen die Server außerhalb der EU. Für personenbezogene oder vertrauliche Daten ist Self-Hosting die sicherere Wahl.
Alternativen zu Qwen 3.6
- Google Gemma 4: Googles offene Modellfamilie aus vier Varianten, von Tablet-tauglich bis Workstation. Apache 2.0 Lizenz, sehr starke deutsche Sprachqualität und damit die erste Wahl für Texte und Kundenkommunikation.
- GLM-5.1: Bei Programmieraufgaben rund 95 Prozent der Leistung von Claude Opus 4.6. Lokal nur auf einem Server mit mehreren Grafikkarten betreibbar, in den meisten Unternehmen also nur über die Cloud praktikabel.
- Mistral Small 4: Europäisches Modell mit starker Mehrsprachigkeit. Apache 2.0 Lizenz, aber ohne Verständnis für Bilder und Videos.
Vorteile
- 73,4 % auf SWE-bench Verified, +3,4 Punkte gegenüber Qwen 3.5 35B-A3B
- Nur 3 Mrd. aktive Parameter, läuft mit 120+ Tokens/s auf einer RTX 4090
- Nativ multimodal: Text, Bilder und Videos in einem Modell
- 262K Context Window, mit YaRN auf rund 1 Million Tokens erweiterbar
- Thinking Preservation erhält Reasoning-Kontext über Agentenschritte hinweg
Nachteile
- Kein Dense- oder größeres MoE-Modell mehr als Open Weight verfügbar (Qwen 3.6 Plus ist Closed Source)
- Full Precision braucht trotz Sparsity 70+ GB VRAM, lokal nur quantisiert sinnvoll
- Thinking Mode erzeugt längere Antworten und höheren Token-Verbrauch
- Deutsche Ausgaben gut, aber nicht auf Muttersprachler-Niveau