Lokale LLMs im Vergleich: Qwen 3.5, GPT-OSS und GLM für Unternehmen

Vor einem Jahr brauchte man für wirklich gute KI-Ergebnisse ein Abo bei OpenAI oder Anthropic. Heute gibt es lokale LLMs, die bei vielen Aufgaben auf dem gleichen Niveau spielen. Drei Modellfamilien empfehlen wir unseren Kunden aktuell besonders häufig: Qwen 3.5 von Alibaba, GPT-OSS-120B von OpenAI und die GLM-Familie von Z.ai. Alle drei stehen unter offenen Lizenzen, laufen auf eigener Infrastruktur und liefern Ergebnisse, für die man bis vor kurzem teure API-Abos brauchte.

Aber sie sind nicht austauschbar. Jedes lokale LLM hat klare Stärken. Welches das richtige für dein Unternehmen ist, hängt davon ab, was du damit vorhast.

Warum diese drei lokalen LLMs herausstechen

Der Markt für Open-Source-Modelle ist groß geworden. Llama, Mistral, Gemma, DeepSeek, Nemotron, Phi. Die Liste wird jeden Monat länger. Die meisten dieser Modelle sind solide, aber nicht herausragend. Qwen 3.5, GPT-OSS und GLM stechen aus der Masse heraus.

Alle drei nutzen eine clevere Architektur namens Mixture-of-Experts (MoE). Stell dir das wie ein Team von Spezialisten vor. Das Modell hat Dutzende oder Hunderte “Experten” eingebaut, aktiviert aber pro Anfrage nur die wenigen, die gerade gebraucht werden. Qwen 3.5-35B-A3B hat zum Beispiel 35 Milliarden Parameter insgesamt, nutzt aber nur 3 Milliarden pro Anfrage. Hohe Qualität bei deutlich weniger Rechenaufwand. Deshalb laufen diese lokalen LLMs auf Büro-Hardware, die man ohnehin im Unternehmen hat.

Alle drei sind unter offenen Lizenzen verfügbar (Apache 2.0 bzw. MIT). Du darfst sie kommerziell nutzen, anpassen und weitergeben, ohne Einschränkungen.

Und sie liegen bei unabhängigen Tests nicht nur knapp hinter den besten Cloud-Modellen. In einzelnen Disziplinen erreichen sie deren Niveau oder übertreffen es.

Qwen 3.5: Das vielseitigste lokale LLM

Alibaba hat Qwen 3.5 im Februar 2026 veröffentlicht, in mehreren Größen von klein bis sehr groß. Die Varianten, die wir am häufigsten bei Kunden einrichten, sind das 35B-A3B für alltägliche Aufgaben, das 27B Dense als Coding-Assistent und das 122B-A10B für anspruchsvollere Analysen.

Qwen 3.5 kann extrem viel Text auf einmal verarbeiten, bis zu 262.000 Tokens. Das entspricht einem ganzen Buch oder rund 200 Seiten. Alibaba setzt dafür eine neue Technik ein, die bei langen Texten deutlich weniger Rechenleistung braucht als herkömmliche Ansätze. Für die Praxis heißt das, dass du ganze Vertragssammlungen, Projektdokumentationen oder umfangreiche Berichte in einem Durchgang auswerten lassen kannst.

Stärke: Vielseitigkeit

Qwen 3.5 ist kein Spezialist, sondern bei fast allen Aufgaben stark. Texte schreiben, Dokumente analysieren, Bilder auswerten und sogar Videos verarbeiten.

Stärke: Geschwindigkeit

Dank der MoE-Architektur antwortet das Modell schnell genug für flüssiges Arbeiten, auch auf einem Arbeitsrechner mit dedizierter Grafikkarte.

Stärke: 201 Sprachen

Deutsch funktioniert gut. Für Unternehmen mit internationalen Kunden oder mehrsprachigen Dokumenten ein echter Vorteil gegenüber vielen Konkurrenzmodellen.

Qwen 3.5 verarbeitet nicht nur Text, sondern auch Bilder und Videos in einem Modell. Das ist praktisch für Unternehmen, die zum Beispiel gescannte Dokumente, Fotos von Produkten oder Baustellenbilder auswerten wollen. Das 35B-A3B eignet sich als lokaler Alltagsassistent für Texte, E-Mails, Zusammenfassungen und Bildauswertung. Das 122B-A10B übernimmt, wenn es anspruchsvoller wird, also bei komplexen Analysen, strukturierter Datenextraktion oder der Auswertung ganzer Aktenordner.

GPT-OSS-120B: Eines der stärksten lokalen LLMs für Analysen

Als OpenAI im August 2025 sein erstes frei verfügbares Modell veröffentlichte, war das ein Signal an die Branche. GPT-OSS-120B ist kein abgespecktes Nebenprodukt, sondern ein vollwertiges lokales LLM, das bei logischem Denken, Mathematik und strukturiertem Problemlösen zu den besten gehört.

Was GPT-OSS von den anderen beiden unterscheidet, ist die einstellbare Denktiefe. Du kannst wählen, wie gründlich das Modell nachdenken soll. Schnell für einfache Fragen, ausführlich für komplexe Probleme. Eine kurze Rückfrage braucht keine minutenlange Analyse. Aber wenn ein Kunde wissen will, ob seine Kalkulation schlüssig ist oder ein Vertrag Lücken hat, kann GPT-OSS sich die nötige Zeit nehmen.

Wo GPT-OSS seine Stärke ausspielt:

Aufgaben, die mehrere Denkschritte erfordern. Kalkulationen prüfen, Daten auswerten, logische Zusammenhänge in Dokumenten erkennen. Wenn andere Modelle nach dem zweiten oder dritten Schritt ungenau werden, bleibt GPT-OSS präzise. Für kreative Texte oder Bildanalyse sind Qwen 3.5 und GLM die bessere Wahl.

GPT-OSS verarbeitet ausschließlich Text, keine Bilder oder Videos. Das klingt nach Einschränkung, ist aber Absicht. OpenAI hat das Modell auf präzises Denken optimiert. Für Unternehmen, die ein lokales LLM für Analysen und strukturierte Auswertungen brauchen und Bildverarbeitung mit einem anderen Modell abdecken, ist GPT-OSS eine starke Wahl.

GLM: Das lokale LLM für Software-Entwicklung

Z.ai (ehemals Zhipu AI) hat sich mit der GLM-Familie auf Software-Entwicklung spezialisiert. Die Reihe umfasst inzwischen mehrere Modelle. GLM-4.7 Flash ist die kompakte Variante für den lokalen Betrieb auf einer einzelnen Grafikkarte. Das im März 2026 veröffentlichte GLM-5.1 ist das aktuelle Flaggschiff und erreicht beim Coding 94,6 % der Leistung von Claude Opus 4.6.

GLM-4.7 Flash löst auf dem SWE-bench, einem standardisierten Test mit echten Software-Bugs aus GitHub-Projekten, 59,2 % aller Aufgaben. Das ist der beste Wert unter Open-Source-Modellen dieser Größe. GLM-5.1 geht noch deutlich weiter, ist aber nur auf Server-Hardware oder über die Z.ai Cloud nutzbar.

Zwei Besonderheiten machen die GLM-Familie für Entwickler interessant. Das Modell behält seinen Gedankengang über mehrere Nachrichten hinweg. Bei einer längeren Fehlersuche, wo man mehrere Ansätze durchprobiert, muss man dem Modell nicht jedes Mal den gesamten Kontext neu erklären. Außerdem denkt und handelt das Modell gleichzeitig, statt erst einen langen Plan zu erstellen und dann alles auf einmal umzusetzen. Das ist näher an der Art, wie Entwickler tatsächlich arbeiten.

GLM-4.7 Flash (lokal)

30 Milliarden Parameter, 3 Milliarden aktiv. Läuft auf einer einzelnen Grafikkarte mit mindestens 24 GB Speicher (z.B. NVIDIA RTX 4090). Die beste Option für Entwicklerteams, die einen lokalen Coding-Assistenten ohne Cloud-Anbindung wollen.

GLM-5.1 (Server / Cloud)

Das aktuelle Flaggschiff mit 94,6 % der Coding-Leistung von Claude Opus 4.6. Benötigt mindestens 8 GPUs für den lokalen Betrieb. Alternativ über den Z.ai Coding Plan ab ca. 9 Euro/Monat nutzbar.

Auch bei mathematischen Aufgaben schneidet die GLM-Familie hervorragend ab. Aber der primäre Einsatzzweck bleibt Software-Entwicklung. Für allgemeine Textaufgaben, Übersetzungen oder Dokumentenanalyse sind Qwen 3.5 und GPT-OSS die bessere Wahl.

Lokale LLMs im direkten Vergleich

	Qwen 3.5	GPT-OSS-120B	GLM-4.7 Flash
Lizenz	Apache 2.0	Apache 2.0	MIT
Bilder und Videos	Ja (Text, Bild, Video)	Nur Text	Nur Text
Textmenge pro Anfrage	ca. 200 Seiten	ca. 100 Seiten	ca. 100 Seiten (Coding: ca. 12 Seiten)
Logisches Denken	Stark	Führend	Stark (Mathe)
Programmierung	Gut	Gut	Führend (59,2 % SWE-bench)
Hardware-Anforderung	GPU mit 24 GB+ VRAM	GPU mit 24 GB+ VRAM	GPU mit 24 GB VRAM
Am besten für	Alltagsaufgaben, Dokumente, Bilder	Analysen, Kalkulationen, Logik	Software-Entwicklung
Veröffentlicht	Feb. 2026	Aug. 2025	Jan. 2026 (GLM-5.1: März 2026)

Welches lokale LLM passt zu welchem Einsatzzweck?

Kurze Antwort: Für die meisten Unternehmen reicht ein Modell. Die Frage ist, welches.

Wenn du ein Modell für alles suchst: Qwen 3.5-35B-A3B. Es ist der beste Allrounder, deckt Text, Bild und Video ab und ist bei keiner Aufgabe wirklich schwach. Für 80 % der typischen Aufgaben im Büroalltag ist das die pragmatischste Wahl. E-Mails beantworten, Berichte zusammenfassen, Rechnungen auswerten, Angebote formulieren.

Wenn Analyse und logisches Denken im Vordergrund stehen: GPT-OSS-120B. Bei mehrstufigen Auswertungen, Kalkulationsprüfungen und der Analyse komplexer Sachverhalte liefert es die besten Ergebnisse. Die einstellbare Denktiefe spart dabei Ressourcen bei einfacheren Anfragen.

Wenn Software-Entwicklung der Hauptzweck ist: GLM-4.7 Flash für den lokalen Betrieb auf einer einzelnen GPU. Für IT-Abteilungen und Entwicklerteams, die einen lokalen Coding-Assistenten wollen, der bestehenden Code versteht und Fehler findet. Wer Server-Infrastruktur hat, sollte sich GLM-5.1 ansehen, das beim Coding nochmal einen deutlichen Sprung macht.

Was du an Hardware brauchst

Lokale LLMs klingen nach “einfach installieren und loslegen”. In der Praxis braucht man für den produktiven Einsatz im Unternehmen mehr als einen Laptop.

Einzelarbeitsplatz (1 Nutzer)

Workstation mit einer NVIDIA RTX 4090 oder RTX A6000 (24 bis 48 GB VRAM), mindestens 64 GB Arbeitsspeicher und einer schnellen SSD. Damit laufen die kompakten Modelle (Qwen 3.5-35B, GLM-4.7 Flash) flüssig für einen Nutzer.

Team-Server (5 bis 20 Nutzer)

Dedizierter Server mit 2 bis 4 NVIDIA RTX 6000 (jeweils 48 GB VRAM), mindestens 96 GB Arbeitsspeicher. Damit lassen sich auch die größeren Modelle wie Qwen 3.5-122B oder GPT-OSS-120B betreiben und mehrere Anfragen gleichzeitig verarbeiten.

Wer die Modelle zunächst evaluieren möchte, kann das auf einem Apple Mac Studio mit M-Chip und 96 GB oder mehr Unified Memory tun. Für den produktiven Einsatz mit mehreren Nutzern gleichzeitig empfehlen wir dedizierte Server mit NVIDIA-GPUs, weil diese deutlich höhere Durchsatzraten ermöglichen.

Datenschutz und DSGVO: Das stärkste Argument für lokale LLMs

Für viele Unternehmen ist Datenschutz der Hauptgrund, überhaupt über lokale LLMs nachzudenken. Und hier liegt ihr entscheidender Vorteil gegenüber Cloud-Diensten wie ChatGPT oder Claude.

Warum lokale LLMs DSGVO-konform sind:

Wenn das Modell auf deinem eigenen Server läuft, verlassen keine Daten dein Netzwerk. Es gibt keinen externen Anbieter, der Daten verarbeitet, speichert oder zum Training nutzt. Kein Auftragsverarbeitungsvertrag nötig, keine Abhängigkeit von Datenschutzrichtlinien eines US-Anbieters. Für Kanzleien, Praxen und Unternehmen, die mit personenbezogenen oder vertraulichen Daten arbeiten, ist das oft das ausschlaggebende Argument.

Alle drei Modellfamilien stehen unter offenen Lizenzen (Apache 2.0 oder MIT). Du darfst sie ohne Einschränkungen auf eigener Infrastruktur betreiben. Es fallen keine laufenden Lizenzgebühren an. Die einzigen Kosten sind die Hardware und der Strom. Wie du lokale Modelle in deinem Unternehmen produktiv einsetzt, beschreiben wir auf unserer Seite Lokale KI ohne Cloud.

Ein wichtiger Hinweis zur GLM-Familie. GLM-5.1 ist aktuell auch über die Z.ai Cloud nutzbar. Bei dieser Variante werden Daten auf Servern in China verarbeitet, was für EU-Unternehmen mit personenbezogenen Daten nicht in Frage kommt. Für den DSGVO-konformen Einsatz ist die lokal betriebene Variante GLM-4.7 Flash die richtige Wahl, oder GLM-5.1 auf eigenem Server, sobald die Open-Source-Gewichte verfügbar sind.

Warum lokale LLMs plötzlich so gut geworden sind

Bis vor kurzem waren lokale LLMs bestenfalls eine Notlösung, wenn Cloud-KI aus Datenschutzgründen nicht in Frage kam. Die Qualität lag deutlich hinter ChatGPT und Co. Das hat sich grundlegend geändert, und der Hauptgrund ist die MoE-Architektur (Mixture of Experts).

Die Idee dahinter ist einfach. Statt alle Parameter eines Modells für jede Anfrage zu nutzen, werden nur die relevanten “Experten” aktiviert. Qwen 3.5-35B wählt aus 256 Experten die passenden aus und nutzt nur 3 Milliarden statt 35 Milliarden Parameter. Das gesamte Wissen steckt trotzdem im Modell, es wird nur jeweils der Teil abgerufen, der zur aktuellen Aufgabe passt.

Für Unternehmen bedeutet das, dass Modelle, die früher einen teuren Server gebraucht hätten, heute auf einer Workstation laufen. Die Qualität ist gestiegen, die Kosten sind gesunken.

Wie sich die drei lokalen LLMs im Alltag unterscheiden

Benchmarks messen standardisierte Aufgaben. Der Arbeitsalltag ist weniger standardisiert. Ein paar Beobachtungen, die in keiner Vergleichstabelle stehen.

Qwen 3.5 liefert die zuverlässigsten Ergebnisse über verschiedene Aufgabentypen hinweg. Texte, Zusammenfassungen, Übersetzungen, Bildanalyse, alles auf solidem Niveau. Das ist besonders wertvoll in Unternehmen, wo verschiedene Abteilungen die KI für unterschiedliche Zwecke nutzen. Die Qualität schwankt weniger als bei spezialisierten Modellen, wenn die Aufgabe mal nicht genau in deren Kerngebiet fällt.

GPT-OSS überrascht bei Aufgaben, die mehrere Denkschritte erfordern. Wenn andere Modelle nach dem zweiten oder dritten Schritt ungenau werden, bleibt GPT-OSS präzise. Das ist besonders bei Datenanalysen und strukturierten Auswertungen spürbar, etwa wenn ein Steuerberater Jahresabschlüsse auf Plausibilität prüfen lässt.

GLM-4.7 Flash ist beim Programmieren merklich besser als die anderen beiden. Nicht weil es besseren Code generiert (das können alle drei ordentlich), sondern weil es bestehenden Code besser versteht. Fehlersuche, Verbesserungsvorschläge und das Arbeiten mit mehreren Dateien gleichzeitig liegen GLM besonders gut. Und mit GLM-5.1 ist im März 2026 ein Nachfolger erschienen, der beim Coding nochmal 28 % besser abschneidet.

Lokale LLMs im Unternehmen einsetzen?

Wir helfen dir, das passende Modell für deine Anforderungen auszuwählen und auf deiner Infrastruktur einzurichten. Kein Verkaufsgespräch, sondern eine ehrliche Einschätzung, was für dein Unternehmen funktioniert.

Schreib uns