Lokale LLMs im Vergleich: Qwen 3.6, Gemma 4, GPT-OSS und GLM für Unternehmen

Lokale LLMs sind 2026 endgültig in der Liga der Cloud-Modelle angekommen. Vier Open-Weight-Familien empfehlen wir unseren Kunden aktuell besonders häufig: Qwen 3.6 von Alibaba, Gemma 4 von Google, GPT-OSS-120B von OpenAI und die GLM-Familie von Z.ai. Alle vier stehen unter offenen Lizenzen, laufen auf eigener Infrastruktur und liefern Ergebnisse, für die man bis vor kurzem teure API-Abos brauchte.

Aber sie sind nicht austauschbar. Jedes lokale LLM hat klare Stärken. Welches das richtige für Ihr Unternehmen ist, hängt davon ab, was Sie damit vorhaben.

Warum diese vier lokalen LLMs herausstechen

Der Markt für Open-Source-Modelle ist groß geworden. Llama, Mistral, DeepSeek, Nemotron, Phi. Die Liste wird jeden Monat länger. Die meisten dieser Modelle sind solide, aber nicht herausragend. Qwen 3.6, Gemma 4, GPT-OSS und GLM stechen aus der Masse heraus.

Drei der vier nutzen eine clevere Architektur namens Mixture-of-Experts (MoE). Stellen Sie sich das wie ein Team von Spezialisten vor. Das Modell hat Dutzende oder Hunderte “Experten” eingebaut, aktiviert aber pro Anfrage nur die wenigen, die gerade gebraucht werden. Qwen 3.6-35B-A3B hat zum Beispiel 35 Milliarden Parameter insgesamt, nutzt aber nur 3 Milliarden pro Anfrage. Hohe Qualität bei deutlich weniger Rechenaufwand. Deshalb laufen diese lokalen LLMs auf Büro-Hardware, die man ohnehin im Unternehmen hat.

Alle vier sind unter offenen Lizenzen verfügbar (Apache 2.0 bzw. MIT). Sie dürfen sie kommerziell nutzen, anpassen und weitergeben, ohne Einschränkungen.

Und sie liegen bei unabhängigen Tests nicht nur knapp hinter den besten Cloud-Modellen. In einzelnen Disziplinen erreichen sie deren Niveau oder übertreffen es.

Qwen 3.6: Der vielseitigste Allrounder mit Coding-Stärke

Alibaba hat Qwen 3.6 im April 2026 veröffentlicht. Anders als beim Vorgänger gibt es nur noch eine offen verfügbare Variante, das 35B-A3B mit 35 Milliarden Parametern und 3 Milliarden aktiv. Die stärkere Qwen 3.6 Plus bleibt der hauseigenen Cloud vorbehalten.

Qwen 3.6 kann extrem viel Text auf einmal verarbeiten, bis zu 262.000 Tokens. Das entspricht einem ganzen Buch oder rund 200 Seiten. Mit YaRN-Skalierung sind sogar rund 1 Million Tokens möglich. Für die Praxis heißt das, dass Sie ganze Vertragssammlungen, Projektdokumentationen oder umfangreiche Berichte in einem Durchgang auswerten lassen können.

Stärke: Vielseitigkeit

Qwen 3.6 ist kein Spezialist, sondern bei fast allen Aufgaben stark. Texte schreiben, Dokumente analysieren, Bilder auswerten und sogar Videos verarbeiten.

Stärke: Coding-Spitze

73,4 % auf SWE-bench Verified, dem Standard-Test für Software-Engineering. Damit aktuell das stärkste Open-Weight-Modell für Programmieraufgaben in dieser Größenklasse.

Stärke: Geschwindigkeit

Dank der MoE-Architektur antwortet das Modell schnell genug für flüssiges Arbeiten, auch auf einem Arbeitsrechner mit dedizierter Grafikkarte.

Qwen 3.6 verarbeitet nicht nur Text, sondern auch Bilder und Videos in einem Modell. Das ist praktisch für Unternehmen, die zum Beispiel gescannte Dokumente, Fotos von Produkten oder Baustellenbilder auswerten wollen. Neu hinzugekommen ist die sogenannte Thinking Preservation. Damit hält das Modell auch in mehrstufigen Agenten-Workflows den roten Faden, etwa wenn ein KI-Assistent eine Datei analysiert, daraus einen Entwurf erstellt und das Ergebnis anschließend in eine E-Mail einfügt.

Gemma 4: Beste deutsche Sprachqualität und starkes Reasoning

Google hat Gemma 4 im April 2026 veröffentlicht, erstmals unter Apache 2.0 Lizenz. Die Familie umfasst zwei große Varianten. Das 26B MoE-Modell mit 3,8 Milliarden aktiven Parametern ist auf Geschwindigkeit ausgelegt und läuft auf Consumer-Hardware. Das 31B Dense-Modell nutzt alle Parameter gleichzeitig und liefert die maximale Reasoning-Qualität.

Auf dem Arena AI Leaderboard, wo Modelle nach echten Nutzerbewertungen verglichen werden, liegt das 31B Dense aktuell auf Platz 3 unter den offenen Modellen mit einem ELO-Score von 1452. Das 26B MoE folgt auf Platz 6 mit ELO 1441. Beide Varianten basieren auf der gleichen Forschung wie Gemini 3, sind nativ multimodal und unterstützen 256K Tokens Kontext.

Stärke: Deutsche Sprache

Über 140 Sprachen, mit deutlich präziserer Ausgabe in deutschsprachigen Texten als bei den asiatischen Modellen. Für Kundenkommunikation, Berichte und juristische Texte ein klarer Vorteil.

Stärke: Reasoning-Qualität

Das 31B Dense erreicht 89,2 % auf AIME 2026 und 84,3 % auf GPQA Diamond. Damit auf Augenhöhe mit deutlich größeren Modellen anderer Anbieter.

Stärke: Fine-Tuning

Das 31B Dense reagiert besonders gut auf Fine-Tuning und eignet sich als Basis für branchen- oder fachspezifische Anpassungen, ohne dass tiefes ML-Know-how nötig ist.

Beide Varianten unterstützen natives Function Calling und JSON-Output, was sie zu einer guten Wahl für agentenbasierte Workflows macht. Das 26B MoE eignet sich als interaktiver Alltagsassistent. Das 31B Dense übernimmt, wenn anspruchsvolle Analysen, Code-Reviews oder mehrstufige Reasoning-Aufgaben anstehen.

GPT-OSS-120B: Eines der stärksten lokalen LLMs für Analysen

Als OpenAI im August 2025 sein erstes frei verfügbares Modell veröffentlichte, war das ein Signal an die Branche. GPT-OSS-120B ist kein abgespecktes Nebenprodukt, sondern ein vollwertiges lokales LLM, das bei logischem Denken, Mathematik und strukturiertem Problemlösen zu den besten gehört.

Was GPT-OSS von den anderen drei unterscheidet, ist die einstellbare Denktiefe. Sie können wählen, wie gründlich das Modell nachdenken soll. Eine Routinefrage braucht keine minutenlange Analyse. Aber wenn ein Kunde wissen will, ob seine Kalkulation schlüssig ist oder ein Vertrag Lücken hat, kann GPT-OSS sich die nötige Zeit nehmen.

Wo GPT-OSS seine Stärke ausspielt:

Aufgaben, die mehrere Denkschritte erfordern. Kalkulationen prüfen, Daten auswerten, logische Zusammenhänge in Dokumenten erkennen. Wenn andere Modelle nach dem zweiten oder dritten Schritt ungenau werden, bleibt GPT-OSS präzise. Für kreative Texte oder Bildanalyse sind Qwen 3.6 und Gemma 4 die bessere Wahl.

GPT-OSS verarbeitet ausschließlich Text, keine Bilder oder Videos. Das klingt nach Einschränkung, ist aber Absicht. OpenAI hat das Modell auf präzises Denken optimiert. Für Unternehmen, die ein lokales LLM für Analysen und strukturierte Auswertungen brauchen und Bildverarbeitung mit einem anderen Modell abdecken, ist GPT-OSS eine starke Wahl.

GLM: Das lokale LLM für Software-Entwicklung

Z.ai (ehemals Zhipu AI) hat sich mit der GLM-Familie auf Software-Entwicklung spezialisiert. Die Reihe umfasst inzwischen mehrere Modelle. GLM-4.7 Flash ist die kompakte Variante für den lokalen Betrieb auf einer einzelnen Grafikkarte. Das im März 2026 veröffentlichte GLM-5.1 ist das aktuelle Flaggschiff und erreicht beim Coding 94,6 % der Leistung von Claude Opus 4.6.

GLM-4.7 Flash löst auf dem SWE-bench, einem standardisierten Test mit echten Software-Bugs aus GitHub-Projekten, 59,2 % aller Aufgaben. Damit liegt es zwar unter Qwen 3.6, behält aber Vorteile in der Tiefe. Das Modell behält seinen Gedankengang über mehrere Nachrichten hinweg. Bei einer längeren Fehlersuche, bei der man mehrere Ansätze durchprobiert, muss man dem Modell nicht jedes Mal den gesamten Kontext neu erklären. Außerdem denkt und handelt das Modell gleichzeitig, statt erst einen langen Plan zu erstellen und dann alles auf einmal umzusetzen. Das ist näher an der Art, wie Entwickler tatsächlich arbeiten.

GLM-4.7 Flash (lokal)

30 Milliarden Parameter, 3 Milliarden aktiv. Läuft auf einer einzelnen Grafikkarte mit mindestens 24 GB Speicher (z.B. NVIDIA RTX 4090). Die beste Option für Entwicklerteams, die einen lokalen Coding-Assistenten ohne Cloud-Anbindung wollen.

GLM-5.1 (Server / Cloud)

Das aktuelle Flaggschiff mit 94,6 % der Coding-Leistung von Claude Opus 4.6. Benötigt mindestens 8 GPUs für den lokalen Betrieb. Alternativ über den Z.ai Coding Plan ab ca. 9 Euro/Monat nutzbar.

Auch bei mathematischen Aufgaben schneidet die GLM-Familie hervorragend ab. Aber der primäre Einsatzzweck bleibt Software-Entwicklung. Für allgemeine Textaufgaben, Übersetzungen oder Dokumentenanalyse sind Qwen 3.6 und Gemma 4 die bessere Wahl.

Lokale LLMs im direkten Vergleich

	Qwen 3.6	Gemma 4 (31B Dense)	GPT-OSS-120B	GLM-4.7 Flash
Lizenz	Apache 2.0	Apache 2.0	Apache 2.0	MIT
Bilder und Videos	Ja	Ja	Nur Text	Nur Text
Textmenge pro Anfrage	ca. 200 Seiten	ca. 200 Seiten	ca. 100 Seiten	ca. 100 Seiten
Logisches Denken	Stark	Führend (Open Weight)	Führend	Stark (Mathe)
Programmierung	73,4 % SWE-bench	52,0 % SWE-bench	Solide	59,2 % SWE-bench
Deutsche Sprache	Gut	Sehr gut	Gut	Solide
Hardware-Anforderung	GPU mit 24 GB+ VRAM	64 GB RAM oder A100	GPU mit 24 GB+ VRAM	GPU mit 24 GB VRAM
Am besten für	Allround, Coding, Multimodal	Deutsche Texte, Reasoning	Analysen, Kalkulationen, Logik	Software-Entwicklung
Veröffentlicht	Apr. 2026	Apr. 2026	Aug. 2025	Jan. 2026 (5.1: März 2026)

Welches lokale LLM passt zu welchem Einsatzzweck?

Für die meisten Unternehmen reicht ein einziges Modell. Die Frage ist, welches.

Als Allrounder mit Coding-Stärke ist Qwen 3.6 aktuell die pragmatischste Wahl. Multimodal, ausreichend stark in Sprache, Reasoning und Programmierung, bei keiner Aufgabe wirklich schwach. Für 80 % der typischen Aufgaben im Büroalltag eine solide Empfehlung.

Wer Wert auf deutschsprachige Texte und Reasoning legt, sollte sich Gemma 4 ansehen. Die 31B-Dense-Variante steht auf Platz 3 des Arena Leaderboards für offene Modelle, die 26B-MoE-Variante ist die schnellere Option für Workstations. Besonders sinnvoll, wenn Kundenkommunikation, juristische Texte oder Berichte den Hauptanteil der Arbeit ausmachen.

Bei mehrstufigen Auswertungen, Kalkulationsprüfungen und der Analyse komplexer Sachverhalte liefert GPT-OSS-120B die besten Ergebnisse. Die einstellbare Denktiefe spart dabei Ressourcen bei einfacheren Anfragen.

Für Software-Entwicklung lohnt der Blick auf GLM-4.7 Flash für den lokalen Betrieb auf einer einzelnen GPU. Wer Server-Infrastruktur hat, sollte sich GLM-5.1 ansehen, das beim Coding nochmal einen deutlichen Sprung macht.

Was Sie an Hardware brauchen

Lokale LLMs klingen nach “einfach installieren und loslegen”. In der Praxis braucht man für den produktiven Einsatz im Unternehmen mehr als einen Laptop.

Einzelarbeitsplatz (1 Nutzer)

Workstation mit einer NVIDIA RTX 4090 oder RTX A6000 (24 bis 48 GB VRAM), mindestens 64 GB Arbeitsspeicher und einer schnellen SSD. Damit laufen die kompakten Modelle (Qwen 3.6, Gemma 4 26B MoE, GLM-4.7 Flash) flüssig für einen Nutzer.

Team-Server (5 bis 20 Nutzer)

Dedizierter Server mit 2 bis 4 NVIDIA RTX 6000 (jeweils 48 GB VRAM), mindestens 96 GB Arbeitsspeicher. Damit lassen sich auch die größeren Modelle wie GPT-OSS-120B oder Gemma 4 31B Dense betreiben und mehrere Anfragen gleichzeitig verarbeiten.

Wer die Modelle zunächst evaluieren möchte, kann das auf einem Apple Mac Studio mit M-Chip und 96 GB oder mehr Unified Memory tun. Für den produktiven Einsatz mit mehreren Nutzern gleichzeitig empfehlen wir dedizierte Server mit NVIDIA-GPUs, weil diese deutlich höhere Durchsatzraten ermöglichen.

Datenschutz und DSGVO: Das stärkste Argument für lokale LLMs

Für viele Unternehmen ist Datenschutz der Hauptgrund, überhaupt über lokale LLMs nachzudenken. Und hier liegt ihr entscheidender Vorteil gegenüber Cloud-Diensten wie ChatGPT oder Claude.

Warum lokale LLMs DSGVO-konform sind:

Wenn das Modell auf Ihrem eigenen Server läuft, verlassen keine Daten Ihr Netzwerk. Es gibt keinen externen Anbieter, der Daten verarbeitet, speichert oder zum Training nutzt. Kein Auftragsverarbeitungsvertrag nötig, keine Abhängigkeit von Datenschutzrichtlinien eines US-Anbieters. Für Kanzleien, Praxen und Unternehmen, die mit personenbezogenen oder vertraulichen Daten arbeiten, ist das oft das ausschlaggebende Argument.

Alle vier Modellfamilien stehen unter offenen Lizenzen (Apache 2.0 oder MIT). Sie dürfen sie ohne Einschränkungen auf eigener Infrastruktur betreiben. Es fallen keine laufenden Lizenzgebühren an. Die einzigen Kosten sind die Hardware und der Strom. Wie Sie lokale Modelle in Ihrem Unternehmen produktiv einsetzen, beschreiben wir auf unserer Seite Lokale KI ohne Cloud.

Ein wichtiger Hinweis zur GLM-Familie. GLM-5.1 ist aktuell auch über die Z.ai Cloud nutzbar. Bei dieser Variante werden Daten auf Servern in China verarbeitet, was für EU-Unternehmen mit personenbezogenen Daten nicht in Frage kommt. Für den DSGVO-konformen Einsatz ist die lokal betriebene Variante GLM-4.7 Flash die richtige Wahl, oder GLM-5.1 auf eigenem Server, sobald die Open-Source-Gewichte verfügbar sind.

Warum lokale LLMs plötzlich so gut geworden sind

Bis vor kurzem waren lokale LLMs bestenfalls eine Notlösung, wenn Cloud-KI aus Datenschutzgründen nicht in Frage kam. Die Qualität lag deutlich hinter ChatGPT und Co. Das hat sich grundlegend geändert, und der Hauptgrund ist die MoE-Architektur (Mixture of Experts).

Die Idee dahinter ist einfach. Statt alle Parameter eines Modells für jede Anfrage zu nutzen, werden nur die relevanten “Experten” aktiviert. Qwen 3.6-35B-A3B wählt aus 256 Experten die passenden aus und nutzt nur 3 Milliarden statt 35 Milliarden Parameter. Das gesamte Wissen steckt trotzdem im Modell, es wird nur jeweils der Teil abgerufen, der zur aktuellen Aufgabe passt.

Modelle, die früher einen teuren Server gebraucht hätten, laufen heute auf einer Workstation. Das hat die Hürde für lokale KI im Mittelstand massiv gesenkt.

Wie sich die vier lokalen LLMs im Alltag unterscheiden

Benchmarks messen standardisierte Aufgaben. Der Arbeitsalltag ist weniger standardisiert. In unseren Projekten sehen wir vier wiederkehrende Muster.

Qwen 3.6 liefert die zuverlässigsten Ergebnisse über verschiedene Aufgabentypen hinweg. Texte, Zusammenfassungen, Übersetzungen, Bildanalyse, Coding, alles auf solidem bis sehr gutem Niveau. Mit der neuen Thinking Preservation hält das Modell auch in mehrstufigen Agenten-Workflows den roten Faden, was es zu einer guten Basis für Wissensmanagement- oder Automatisierungsprojekte macht.

Gemma 4 überzeugt besonders in deutschsprachigen Unternehmen, wo die Sprachqualität spürbar präziser ausfällt. Die 31B-Dense-Variante reagiert außerdem gut auf Fine-Tuning und eignet sich als Basis für branchen- oder fachspezifische Anpassungen, etwa für eine Steuerkanzlei mit eigenem Begriffsvokabular oder eine Klinik mit medizinischer Terminologie.

GPT-OSS überrascht bei Aufgaben, die mehrere Denkschritte erfordern. Wenn andere Modelle nach dem zweiten oder dritten Schritt ungenau werden, bleibt GPT-OSS präzise. Das ist besonders bei Datenanalysen und strukturierten Auswertungen spürbar, etwa wenn ein Steuerberater Jahresabschlüsse auf Plausibilität prüfen lässt.

GLM-4.7 Flash ist beim Programmieren gut darin, bestehenden Code zu verstehen. Fehlersuche, Verbesserungsvorschläge und das Arbeiten mit mehreren Dateien gleichzeitig liegen GLM besonders gut. Mit GLM-5.1 ist im März 2026 ein Nachfolger erschienen, der beim Coding nochmal einen deutlichen Sprung macht.

Wir zeigen Ihnen, wo KI in Ihrem Unternehmen wirtschaftlich sinnvoll ist.

Workshops und Vorträge, die Teams KI im Alltag sicher machen.

KI-Lösungen nach Anwendungsdomäne, unabhängig von der Technologie.

Unsere KI-Plattform für Unternehmen. Modular, lokal, DSGVO-konform.