Qwen 3.6: KI-Tool Test & Bewertung
Qwen 3.6 ist Alibabas im April 2026 veröffentlichte offene Modellgeneration für agentisches Coding. Sie umfasst zwei frei verfügbare Modelle, das MoE-Modell 35B-A3B (35 Mrd. Parameter, nur 3 Mrd. aktiv) und das dichte 27B, das auf Coding-Benchmarks sogar das größere Vorgänger-Flaggschiff Qwen 3.5 schlägt. Beide sind nativ multimodal, unterstützen 262K Token Kontext und stehen unter Apache 2.0. Das stärkste Modell der Reihe, Qwen3.6-Max-Preview, bleibt closed source.
Zuletzt aktualisiert: 13. Juni 2026
Qwen 3.6 ist Alibabas Generation offener Modelle für agentisches Coding und tritt in zwei frei verfügbaren Varianten an. Das stärkste Modell der Reihe, Qwen3.6-Max-Preview, bleibt der hauseigenen Cloud vorbehalten, für Unternehmen ist damit klar abgegrenzt, was sich lokal und DSGVO-konform betreiben lässt. Den größten Sprung gegenüber der Vorgänger-Generation macht Qwen 3.6 bei Programmieraufgaben. In einem etablierten Test löst das dichte 27B mehr als drei von vier echten Entwickleraufgaben korrekt und übertrifft dabei sogar das deutlich größere 397-Milliarden-Flaggschiff Qwen 3.5. Stärker als bisher hält es außerdem den roten Faden, wenn ein KI-Assistent mehrere Schritte hintereinander erledigt, etwa eine Datei analysieren, daraus einen Entwurf erstellen und das Ergebnis anschließend in eine E-Mail einfügen.
Zwei offene Modelle im Vergleich
| 35B-A3B (MoE) | 27B Dense | |
|---|---|---|
| Parameter gesamt | 35 Milliarden | 27 Milliarden |
| Aktive Parameter | 3 Milliarden | 27 Milliarden (alle) |
| Context Window | 262K Tokens (bis ~1 Mio.) | 262K Tokens (bis ~1 Mio.) |
| SWE-bench Verified | 73,4 % | 77,2 % |
| SWE-bench Pro | 49,5 % | 53,5 % |
| Terminal-Bench 2.0 | 51,5 % | 59,3 % |
| Stärke | Effizienz, läuft auf der Workstation | maximale Coding-Qualität |
| Hardware | RTX 4090 oder MacBook (quantisiert) | mehr Rechenleistung, dichtes Modell |
Das dichte 27B übertrifft auf SWE-bench Verified mit 77,2 % sogar das große Vorgänger-Flaggschiff Qwen 3.5-397B (76,2 %) und ist damit eines der stärksten offenen Coding-Modelle überhaupt. Das 35B-A3B bleibt mit nur 3 Milliarden aktiven Parametern die effizientere Wahl für den interaktiven Einsatz und schlägt das größere Google-Modell Gemma 4-31B (52,0 % auf SWE-bench Verified) klar.
Wichtigste Funktionen
- Agentic Coding: Trainiert auf Repository-Level-Reasoning und Frontend-Workflows. Kompatibel mit gängigen Agentenframeworks wie LangChain, LlamaIndex und dem hauseigenen Qwen-Agent.
- Thinking Preservation: Neu in Qwen 3.6. Reasoning-Ketten aus früheren Schritten bleiben für Folgeschritte erhalten, was die Genauigkeit in mehrstufigen Agenten-Workflows deutlich erhöht.
- Multi-Token Prediction (MTP): Das Modell sagt mehrere Tokens parallel voraus. In Kombination mit Speculative Decoding in SGLang oder vLLM steigt der Durchsatz spürbar.
- Nativ multimodal: Text, Bilder und Videos werden im selben Modell verarbeitet (Vision-Benchmarks: MMMU 81,7, OmniDocBench 89,9, VideoMMU 83,7).
- 262K Context Window: Nativ 262.144 Tokens, mit YaRN-Scaling auf rund 1 Million erweiterbar. Genug für komplette Codebasen oder umfangreiche Dokumentensammlungen.
- Thinking Mode optional: Wie schon bei Qwen 3.5 lässt sich der Reasoning-Modus pro Anfrage ein- oder ausschalten.
Preise und Tarife
Beide offenen Modelle sind vollständig kostenlos unter Apache 2.0 Lizenz verfügbar, ohne Einschränkungen für die kommerzielle Nutzung. Kosten entstehen nur durch eigene Hardware. Auf Hugging Face stehen neben den Standard-Versionen auch FP8- und GGUF-Varianten von Unsloth zur Verfügung, die weniger Speicher benötigen. Über Drittanbieter wie Alibaba Cloud, OpenRouter oder Together.ai sind die Modelle auch per API nutzbar. Das closed-source Qwen3.6-Max-Preview ist ausschließlich über die Qwen-Cloud erreichbar.
Hardware
Qwen 3.6 35B-A3B läuft mit etwas Optimierung auf Hardware, die in vielen Unternehmen bereits vorhanden ist. Eine gut ausgestattete Workstation reicht aus, ein Rechenzentrum braucht es dafür nicht.
- Apple Silicon: Auf einem MacBook Pro oder Mac Studio mit 48 GB Arbeitsspeicher (M4 Max oder M5 Pro Max) liefert das Modell rund 80 Wörter pro Sekunde. Das fühlt sich im Chat flüssig an.
- Windows- oder Linux-Workstation: Eine NVIDIA RTX 4090 mit 24 GB Grafikspeicher reicht für den interaktiven Einsatz. Antwortzeiten liegen deutlich über 100 Wörtern pro Sekunde.
- Eigener Inferenz-Server: Wer mehrere Mitarbeiter gleichzeitig bedienen will, betreibt das Modell auf einer NVIDIA RTX PRO 6000 oder einer einzelnen H100 und kann darüber problemlos eine ganze Abteilung versorgen. Das dichte 27B braucht etwas mehr Rechenleistung, liefert dafür die höhere Coding-Qualität.
Für wen ist Qwen 3.6 geeignet?
- Entwicklungsteams mit Coding-Fokus: Mit 77,2 % auf SWE-bench Verified (27B Dense) ist Qwen 3.6 aktuell eines der stärksten offenen Modelle für Coding und damit eine Alternative zu Cloud-APIs für sensible Codebasen.
- Unternehmen mit Datenschutzanforderungen: Vollständig lokal betreibbar, keine Telemetrie, keine externen Abhängigkeiten. Geeignet für Branchen mit strengen Compliance-Vorgaben wie Gesundheitswesen, Recht, Finanzen oder Behörden.
- Teams, die agentische Workflows aufbauen: Thinking Preservation und nativer Tool-Use machen das Modell zu einer guten Basis für mehrstufige Agenten, etwa in Wissensmanagement- oder Automatisierungsprojekten.
DSGVO und Datenschutz
Die offenen Qwen 3.6 Modelle laufen vollständig auf eigener Hardware. Es werden keine Daten an externe Server gesendet, keine Telemetrie erhoben. Die Apache 2.0 Lizenz erlaubt die uneingeschränkte kommerzielle Nutzung. Bei Nutzung über API-Anbieter wie Alibaba Cloud, OpenRouter oder Together.ai sowie beim closed-source Qwen3.6-Max-Preview liegen die Server außerhalb der EU. Für personenbezogene oder vertrauliche Daten ist Self-Hosting der offenen Modelle die sicherere Wahl.
Alternativen zu Qwen 3.6
- Qwen 3.5: das große Vorgänger-Flaggschiff derselben Familie (397 Mrd. Parameter). Stärker bei breitem Wissen, aber nur auf Server-Hardware mit mehreren Grafikkarten lauffähig.
- Google Gemma 4: Googles offene Modellfamilie aus vier Varianten, von Tablet-tauglich bis Workstation. Apache 2.0 Lizenz, sehr starke deutsche Sprachqualität und damit die erste Wahl für Texte und Kundenkommunikation.
- GLM-5.2: bei Programmieraufgaben an der Spitze der offenen Modelle, auf Augenhöhe mit den führenden kommerziellen Anbietern. Lokal nur auf einem Server mit mehreren Grafikkarten betreibbar, in den meisten Unternehmen also nur über die Cloud praktikabel.
Vorteile
- Dichtes 27B mit 77,2 % auf SWE-bench Verified, schlägt das größere Qwen 3.5-Flaggschiff
- 35B-A3B mit nur 3 Mrd. aktiven Parametern, läuft mit 120+ Tokens/s auf einer RTX 4090
- Nativ multimodal, versteht Text, Bilder und Videos in einem Modell
- 262K Context Window, mit YaRN auf rund 1 Million Tokens erweiterbar
- Thinking Preservation erhält Reasoning-Kontext über Agentenschritte hinweg
Nachteile
- Das stärkste Modell der Reihe (Qwen3.6-Max-Preview) ist closed source und nur über die Cloud nutzbar
- Das 35B-A3B braucht in voller Genauigkeit 70+ GB VRAM, lokal nur quantisiert sinnvoll
- Thinking Mode erzeugt längere Antworten und höheren Token-Verbrauch
- Deutsche Ausgaben gut, aber nicht auf Muttersprachler-Niveau