Zum Inhalt springen
Q

Qwen 3.5: KI-Tool Test & Bewertung

4.5
Sprachmodelle Kostenlos Kostenlos unter Apache 2.0, keine Einschränkungen für kommerzielle Nutzung Self-Hosted DSGVO-konform Open Source

Qwen 3.5 ist Alibabas aktuelle Open-Source-Modellfamilie mit drei Varianten für unterschiedliche Anforderungen: Das 27B Dense-Modell liefert die beste Coding-Leistung der Familie, das 35B-A3B läuft dank MoE-Architektur auf Consumer-Hardware, und das 122B-A10B bietet maximale Reasoning-Power. Alle drei sind nativ multimodal, unterstützen 262K Tokens Kontext und stehen unter Apache 2.0 Lizenz.

Zuletzt aktualisiert: 4. April 2026

Qwen 3.5 ist Alibabas stärkste offene Modellfamilie und deckt mit drei Varianten ein breites Spektrum ab: vom sparsamen MoE-Modell für den Laptop bis zum Schwergewicht für Server-Infrastruktur. Alle drei Modelle verstehen nativ Text, Bilder und Videos, sprechen 201 Sprachen und stehen unter Apache 2.0 Lizenz. Die hybride Architektur mit Gated DeltaNet sorgt für bessere Effizienz bei langen Kontexten als reine Transformer-Modelle.

Die drei Varianten im Vergleich

27B Dense35B-A3B (MoE)122B-A10B (MoE)
Parameter gesamt27 Milliarden35 Milliarden122 Milliarden
Aktive Parameter27 Milliarden (alle)3 Milliarden10 Milliarden
Context Window262K Tokens262K Tokens262K Tokens
SWE-bench Verified72,4 %69,2 %72,0 %
LiveCodeBench v680,774,678,9
MMLU-Pro86,185,386,7
StärkeCoding, Instruction FollowingGeschwindigkeit, EffizienzReasoning, Wissensbreite
Hardware-Bedarf32+ GB RAM, Apple Silicon oder RTX 4090MacBook Pro M4 Max oder RTX 3090128+ GB RAM oder Server-GPU

Faustregel: Das 35B-A3B ist die richtige Wahl für interaktive Nutzung auf Consumer-Hardware. Das 27B Dense liefert die beste Coding-Leistung der Familie und eignet sich hervorragend als lokaler Coding-Assistent. Das 122B-A10B ist das Modell für maximale Qualität, wenn Server-Hardware verfügbar ist.

Wichtigste Funktionen

  • Nativ multimodal: Text, Bilder und Videos werden in einem einzigen Modell verarbeitet. Keine separate Vision-Pipeline nötig. OCR-Leistung auf Benchmark-Niveau (OCRBench 89,4 beim 27B), was die automatische Verarbeitung von Rechnungen, Verträgen und gescannten Dokumenten ermöglicht.
  • 262K Context Window: Nativ 262.144 Tokens, mit YaRN Scaling auf rund 1 Million erweiterbar. Ganze Codebasen oder umfangreiche Dokumentensammlungen passen in einen einzigen Kontext.
  • Thinking Mode: Der integrierte Reasoning-Modus generiert interne Gedankenketten vor der Antwort. Lässt sich pro Anfrage ein- oder ausschalten. Verbessert die Qualität bei mathematischen Problemen, mehrstufigen Analysen und Code-Generierung.
  • Tool Use und Agenten: Nativer Support für Funktionsaufrufe. Das 122B-A10B erreicht 72,2 auf BFCL-V4, führend unter Open-Source-Modellen dieser Größe. Kompatibel mit gängigen Agentenframeworks wie LangChain und LlamaIndex.
  • Gated DeltaNet Architektur: Hybridarchitektur, die lineare Attention-Schichten mit klassischen Attention-Blöcken kombiniert (Muster: 3 lineare + 1 volle Attention). Das sorgt für höheren Durchsatz und niedrigere Latenz als reine Transformer-Modelle gleicher Größe.

Preise und Tarife

Alle drei Varianten sind vollständig kostenlos unter Apache 2.0 Lizenz verfügbar. Es gibt keine Einschränkungen für kommerzielle Nutzung. Kosten entstehen ausschließlich durch die eigene Hardware. Auf Hugging Face sind neben den Standard-Versionen auch quantisierte Varianten verfügbar, die weniger Speicher benötigen. Über Drittanbieter wie Alibaba Cloud, OpenRouter oder Together.ai sind die Modelle auch per API nutzbar.

Für wen ist Qwen 3.5 geeignet?

  • Entwickler und kleine Teams: Das 35B-A3B läuft auf einem MacBook Pro oder einer Consumer-GPU, ohne API-Kosten. Das 27B Dense ist der stärkste lokale Coding-Assistent der Familie (SWE-bench 72,4 %) und ideal für Entwickler, die maximale Code-Qualität auf eigener Hardware wollen.
  • Unternehmen mit Datenschutzanforderungen: Alle Verarbeitung findet lokal statt. Keine Daten verlassen das Unternehmen. Besonders geeignet für sensible Branchen wie Gesundheitswesen, Recht oder Finanzen.
  • Teams mit Server-Infrastruktur: Wer 128 GB RAM zur Verfügung hat, bekommt mit dem 122B-A10B ein Modell mit führender Tool-Use-Leistung und starkem Reasoning, ohne API-Abhängigkeit.

DSGVO und Datenschutz

Alle Qwen 3.5 Modelle laufen vollständig auf eigener Hardware. Es werden keine Daten an externe Server gesendet, keine Telemetrie erhoben. Die Apache 2.0 Lizenz erlaubt die uneingeschränkte kommerzielle Nutzung. Bei Nutzung über API-Anbieter (Alibaba Cloud, OpenRouter etc.) liegen die Server außerhalb der EU. Für personenbezogene oder vertrauliche Daten ist Self-Hosting die sicherere Wahl.

Alternativen zu Qwen 3.5

  • Google Gemma 4: Googles offene Modellfamilie mit 26B MoE (3,8B aktiv) und 31B Dense. Apache 2.0 Lizenz, 256K Context, nativ multimodal.
  • GLM-4.7 Flash: Coding-Spezialist mit 30B MoE (3B aktiv). SWE-bench 59,2 %, MIT-Lizenz, sehr schnell auf Consumer-Hardware.
  • Mistral Small 4: Europäisches Modell mit starker Mehrsprachigkeit und 256K Context. Apache 2.0, aber ohne multimodale Fähigkeiten.

Vorteile

  • 27B Dense schlägt das 122B bei SWE-bench (72,4 %) und LiveCodeBench (80,7 %)
  • 35B-A3B mit nur 3B aktiven Parametern, läuft auf MacBook mit Apple Silicon
  • Nativ multimodal: Text, Bilder und Videos in einem Modell ohne separate Pipeline
  • 262K Context Window, erweiterbar auf 1 Million Tokens mit YaRN Scaling
  • Apache 2.0 Lizenz, 201 Sprachen, nativer Tool-Aufruf

Nachteile

  • 122B-A10B benötigt mindestens 128 GB RAM, kein Consumer-Modell
  • 27B Dense braucht mehr Rechenleistung als das effizientere 35B-A3B
  • Thinking Mode erzeugt längere Antworten mit höherem Token-Verbrauch
  • Deutsche Ausgaben gut, aber nicht auf Muttersprachler-Niveau

Anwendungsgebiete

Lokaler KI-AssistentBilderkennung und OCRCode-Generierung und DebuggingKI-Agenten mit Tool UseDokumentenanalyse