Lokale LLMs im Vergleich: Qwen 3.6, Gemma 4, GPT-OSS und GLM für Unternehmen
Qwen 3.6, Gemma 4, GPT-OSS und GLM sind unsere aktuellen Favoriten unter den lokalen LLMs. Was die vier unterscheidet, wo ihre Stärken liegen und welches Modell zu welchem Einsatzzweck passt.
Lokale LLMs sind 2026 endgültig in der Liga der Cloud-Modelle angekommen. Vier Open-Weight-Familien empfehlen wir unseren Kunden aktuell besonders häufig: Qwen 3.6 von Alibaba, Gemma 4 von Google, GPT-OSS-120B von OpenAI und die GLM-Familie von Z.ai. Alle vier stehen unter offenen Lizenzen, laufen auf eigener Infrastruktur und liefern Ergebnisse, für die man bis vor kurzem teure API-Abos brauchte.
Aber sie sind nicht austauschbar. Jedes lokale LLM hat klare Stärken. Welches das richtige für Ihr Unternehmen ist, hängt davon ab, was Sie damit vorhaben.
Warum diese vier lokalen LLMs herausstechen
Der Markt für Open-Source-Modelle ist groß geworden. Llama, Mistral, DeepSeek, Nemotron, Phi. Die Liste wird jeden Monat länger. Die meisten dieser Modelle sind solide, aber nicht herausragend. Qwen 3.6, Gemma 4, GPT-OSS und GLM stechen aus der Masse heraus.
Drei der vier nutzen eine clevere Architektur namens Mixture-of-Experts (MoE). Stellen Sie sich das wie ein Team von Spezialisten vor. Das Modell hat Dutzende oder Hunderte “Experten” eingebaut, aktiviert aber pro Anfrage nur die wenigen, die gerade gebraucht werden. Qwen 3.6-35B-A3B hat zum Beispiel 35 Milliarden Parameter insgesamt, nutzt aber nur 3 Milliarden pro Anfrage. Hohe Qualität bei deutlich weniger Rechenaufwand. Deshalb laufen diese lokalen LLMs auf Büro-Hardware, die man ohnehin im Unternehmen hat.
Alle vier sind unter offenen Lizenzen verfügbar (Apache 2.0 bzw. MIT). Sie dürfen sie kommerziell nutzen, anpassen und weitergeben, ohne Einschränkungen.
Und sie liegen bei unabhängigen Tests nicht nur knapp hinter den besten Cloud-Modellen. In einzelnen Disziplinen erreichen sie deren Niveau oder übertreffen es.
Qwen 3.6: Der vielseitigste Allrounder mit Coding-Stärke
Alibaba hat Qwen 3.6 im April 2026 veröffentlicht. Anders als beim Vorgänger gibt es nur noch eine offen verfügbare Variante, das 35B-A3B mit 35 Milliarden Parametern und 3 Milliarden aktiv. Die stärkere Qwen 3.6 Plus bleibt der hauseigenen Cloud vorbehalten.
Qwen 3.6 kann extrem viel Text auf einmal verarbeiten, bis zu 262.000 Tokens. Das entspricht einem ganzen Buch oder rund 200 Seiten. Mit YaRN-Skalierung sind sogar rund 1 Million Tokens möglich. Für die Praxis heißt das, dass Sie ganze Vertragssammlungen, Projektdokumentationen oder umfangreiche Berichte in einem Durchgang auswerten lassen können.
Stärke: Vielseitigkeit
Qwen 3.6 ist kein Spezialist, sondern bei fast allen Aufgaben stark. Texte schreiben, Dokumente analysieren, Bilder auswerten und sogar Videos verarbeiten.
Stärke: Coding-Spitze
73,4 % auf SWE-bench Verified, dem Standard-Test für Software-Engineering. Damit aktuell das stärkste Open-Weight-Modell für Programmieraufgaben in dieser Größenklasse.
Stärke: Geschwindigkeit
Dank der MoE-Architektur antwortet das Modell schnell genug für flüssiges Arbeiten, auch auf einem Arbeitsrechner mit dedizierter Grafikkarte.
Qwen 3.6 verarbeitet nicht nur Text, sondern auch Bilder und Videos in einem Modell. Das ist praktisch für Unternehmen, die zum Beispiel gescannte Dokumente, Fotos von Produkten oder Baustellenbilder auswerten wollen. Neu hinzugekommen ist die sogenannte Thinking Preservation. Damit hält das Modell auch in mehrstufigen Agenten-Workflows den roten Faden, etwa wenn ein KI-Assistent eine Datei analysiert, daraus einen Entwurf erstellt und das Ergebnis anschließend in eine E-Mail einfügt.
Gemma 4: Beste deutsche Sprachqualität und starkes Reasoning
Google hat Gemma 4 im April 2026 veröffentlicht, erstmals unter Apache 2.0 Lizenz. Die Familie umfasst zwei große Varianten. Das 26B MoE-Modell mit 3,8 Milliarden aktiven Parametern ist auf Geschwindigkeit ausgelegt und läuft auf Consumer-Hardware. Das 31B Dense-Modell nutzt alle Parameter gleichzeitig und liefert die maximale Reasoning-Qualität.
Auf dem Arena AI Leaderboard, wo Modelle nach echten Nutzerbewertungen verglichen werden, liegt das 31B Dense aktuell auf Platz 3 unter den offenen Modellen mit einem ELO-Score von 1452. Das 26B MoE folgt auf Platz 6 mit ELO 1441. Beide Varianten basieren auf der gleichen Forschung wie Gemini 3, sind nativ multimodal und unterstützen 256K Tokens Kontext.
Stärke: Deutsche Sprache
Über 140 Sprachen, mit deutlich präziserer Ausgabe in deutschsprachigen Texten als bei den asiatischen Modellen. Für Kundenkommunikation, Berichte und juristische Texte ein klarer Vorteil.
Stärke: Reasoning-Qualität
Das 31B Dense erreicht 89,2 % auf AIME 2026 und 84,3 % auf GPQA Diamond. Damit auf Augenhöhe mit deutlich größeren Modellen anderer Anbieter.
Stärke: Fine-Tuning
Das 31B Dense reagiert besonders gut auf Fine-Tuning und eignet sich als Basis für branchen- oder fachspezifische Anpassungen, ohne dass tiefes ML-Know-how nötig ist.
Beide Varianten unterstützen natives Function Calling und JSON-Output, was sie zu einer guten Wahl für agentenbasierte Workflows macht. Das 26B MoE eignet sich als interaktiver Alltagsassistent. Das 31B Dense übernimmt, wenn anspruchsvolle Analysen, Code-Reviews oder mehrstufige Reasoning-Aufgaben anstehen.
GPT-OSS-120B: Eines der stärksten lokalen LLMs für Analysen
Als OpenAI im August 2025 sein erstes frei verfügbares Modell veröffentlichte, war das ein Signal an die Branche. GPT-OSS-120B ist kein abgespecktes Nebenprodukt, sondern ein vollwertiges lokales LLM, das bei logischem Denken, Mathematik und strukturiertem Problemlösen zu den besten gehört.
Was GPT-OSS von den anderen drei unterscheidet, ist die einstellbare Denktiefe. Sie können wählen, wie gründlich das Modell nachdenken soll. Eine Routinefrage braucht keine minutenlange Analyse. Aber wenn ein Kunde wissen will, ob seine Kalkulation schlüssig ist oder ein Vertrag Lücken hat, kann GPT-OSS sich die nötige Zeit nehmen.
Wo GPT-OSS seine Stärke ausspielt:
Aufgaben, die mehrere Denkschritte erfordern. Kalkulationen prüfen, Daten auswerten, logische Zusammenhänge in Dokumenten erkennen. Wenn andere Modelle nach dem zweiten oder dritten Schritt ungenau werden, bleibt GPT-OSS präzise. Für kreative Texte oder Bildanalyse sind Qwen 3.6 und Gemma 4 die bessere Wahl.
GPT-OSS verarbeitet ausschließlich Text, keine Bilder oder Videos. Das klingt nach Einschränkung, ist aber Absicht. OpenAI hat das Modell auf präzises Denken optimiert. Für Unternehmen, die ein lokales LLM für Analysen und strukturierte Auswertungen brauchen und Bildverarbeitung mit einem anderen Modell abdecken, ist GPT-OSS eine starke Wahl.
GLM: Das lokale LLM für Software-Entwicklung
Z.ai (ehemals Zhipu AI) hat sich mit der GLM-Familie auf Software-Entwicklung spezialisiert. Die Reihe umfasst inzwischen mehrere Modelle. GLM-4.7 Flash ist die kompakte Variante für den lokalen Betrieb auf einer einzelnen Grafikkarte. Das im März 2026 veröffentlichte GLM-5.1 ist das aktuelle Flaggschiff und erreicht beim Coding 94,6 % der Leistung von Claude Opus 4.6.
GLM-4.7 Flash löst auf dem SWE-bench, einem standardisierten Test mit echten Software-Bugs aus GitHub-Projekten, 59,2 % aller Aufgaben. Damit liegt es zwar unter Qwen 3.6, behält aber Vorteile in der Tiefe. Das Modell behält seinen Gedankengang über mehrere Nachrichten hinweg. Bei einer längeren Fehlersuche, bei der man mehrere Ansätze durchprobiert, muss man dem Modell nicht jedes Mal den gesamten Kontext neu erklären. Außerdem denkt und handelt das Modell gleichzeitig, statt erst einen langen Plan zu erstellen und dann alles auf einmal umzusetzen. Das ist näher an der Art, wie Entwickler tatsächlich arbeiten.
GLM-4.7 Flash (lokal)
30 Milliarden Parameter, 3 Milliarden aktiv. Läuft auf einer einzelnen Grafikkarte mit mindestens 24 GB Speicher (z.B. NVIDIA RTX 4090). Die beste Option für Entwicklerteams, die einen lokalen Coding-Assistenten ohne Cloud-Anbindung wollen.
GLM-5.1 (Server / Cloud)
Das aktuelle Flaggschiff mit 94,6 % der Coding-Leistung von Claude Opus 4.6. Benötigt mindestens 8 GPUs für den lokalen Betrieb. Alternativ über den Z.ai Coding Plan ab ca. 9 Euro/Monat nutzbar.
Auch bei mathematischen Aufgaben schneidet die GLM-Familie hervorragend ab. Aber der primäre Einsatzzweck bleibt Software-Entwicklung. Für allgemeine Textaufgaben, Übersetzungen oder Dokumentenanalyse sind Qwen 3.6 und Gemma 4 die bessere Wahl.
Lokale LLMs im direkten Vergleich
| Qwen 3.6 | Gemma 4 (31B Dense) | GPT-OSS-120B | GLM-4.7 Flash | |
|---|---|---|---|---|
| Lizenz | Apache 2.0 | Apache 2.0 | Apache 2.0 | MIT |
| Bilder und Videos | Ja | Ja | Nur Text | Nur Text |
| Textmenge pro Anfrage | ca. 200 Seiten | ca. 200 Seiten | ca. 100 Seiten | ca. 100 Seiten |
| Logisches Denken | Stark | Führend (Open Weight) | Führend | Stark (Mathe) |
| Programmierung | 73,4 % SWE-bench | 52,0 % SWE-bench | Solide | 59,2 % SWE-bench |
| Deutsche Sprache | Gut | Sehr gut | Gut | Solide |
| Hardware-Anforderung | GPU mit 24 GB+ VRAM | 64 GB RAM oder A100 | GPU mit 24 GB+ VRAM | GPU mit 24 GB VRAM |
| Am besten für | Allround, Coding, Multimodal | Deutsche Texte, Reasoning | Analysen, Kalkulationen, Logik | Software-Entwicklung |
| Veröffentlicht | Apr. 2026 | Apr. 2026 | Aug. 2025 | Jan. 2026 (5.1: März 2026) |
Welches lokale LLM passt zu welchem Einsatzzweck?
Für die meisten Unternehmen reicht ein einziges Modell. Die Frage ist, welches.
Als Allrounder mit Coding-Stärke ist Qwen 3.6 aktuell die pragmatischste Wahl. Multimodal, ausreichend stark in Sprache, Reasoning und Programmierung, bei keiner Aufgabe wirklich schwach. Für 80 % der typischen Aufgaben im Büroalltag eine solide Empfehlung.
Wer Wert auf deutschsprachige Texte und Reasoning legt, sollte sich Gemma 4 ansehen. Die 31B-Dense-Variante steht auf Platz 3 des Arena Leaderboards für offene Modelle, die 26B-MoE-Variante ist die schnellere Option für Workstations. Besonders sinnvoll, wenn Kundenkommunikation, juristische Texte oder Berichte den Hauptanteil der Arbeit ausmachen.
Bei mehrstufigen Auswertungen, Kalkulationsprüfungen und der Analyse komplexer Sachverhalte liefert GPT-OSS-120B die besten Ergebnisse. Die einstellbare Denktiefe spart dabei Ressourcen bei einfacheren Anfragen.
Für Software-Entwicklung lohnt der Blick auf GLM-4.7 Flash für den lokalen Betrieb auf einer einzelnen GPU. Wer Server-Infrastruktur hat, sollte sich GLM-5.1 ansehen, das beim Coding nochmal einen deutlichen Sprung macht.
Was Sie an Hardware brauchen
Lokale LLMs klingen nach “einfach installieren und loslegen”. In der Praxis braucht man für den produktiven Einsatz im Unternehmen mehr als einen Laptop.
Einzelarbeitsplatz (1 Nutzer)
Workstation mit einer NVIDIA RTX 4090 oder RTX A6000 (24 bis 48 GB VRAM), mindestens 64 GB Arbeitsspeicher und einer schnellen SSD. Damit laufen die kompakten Modelle (Qwen 3.6, Gemma 4 26B MoE, GLM-4.7 Flash) flüssig für einen Nutzer.
Team-Server (5 bis 20 Nutzer)
Dedizierter Server mit 2 bis 4 NVIDIA RTX 6000 (jeweils 48 GB VRAM), mindestens 96 GB Arbeitsspeicher. Damit lassen sich auch die größeren Modelle wie GPT-OSS-120B oder Gemma 4 31B Dense betreiben und mehrere Anfragen gleichzeitig verarbeiten.
Wer die Modelle zunächst evaluieren möchte, kann das auf einem Apple Mac Studio mit M-Chip und 96 GB oder mehr Unified Memory tun. Für den produktiven Einsatz mit mehreren Nutzern gleichzeitig empfehlen wir dedizierte Server mit NVIDIA-GPUs, weil diese deutlich höhere Durchsatzraten ermöglichen.
Datenschutz und DSGVO: Das stärkste Argument für lokale LLMs
Für viele Unternehmen ist Datenschutz der Hauptgrund, überhaupt über lokale LLMs nachzudenken. Und hier liegt ihr entscheidender Vorteil gegenüber Cloud-Diensten wie ChatGPT oder Claude.
Warum lokale LLMs DSGVO-konform sind:
Wenn das Modell auf Ihrem eigenen Server läuft, verlassen keine Daten Ihr Netzwerk. Es gibt keinen externen Anbieter, der Daten verarbeitet, speichert oder zum Training nutzt. Kein Auftragsverarbeitungsvertrag nötig, keine Abhängigkeit von Datenschutzrichtlinien eines US-Anbieters. Für Kanzleien, Praxen und Unternehmen, die mit personenbezogenen oder vertraulichen Daten arbeiten, ist das oft das ausschlaggebende Argument.
Alle vier Modellfamilien stehen unter offenen Lizenzen (Apache 2.0 oder MIT). Sie dürfen sie ohne Einschränkungen auf eigener Infrastruktur betreiben. Es fallen keine laufenden Lizenzgebühren an. Die einzigen Kosten sind die Hardware und der Strom. Wie Sie lokale Modelle in Ihrem Unternehmen produktiv einsetzen, beschreiben wir auf unserer Seite Lokale KI ohne Cloud.
Ein wichtiger Hinweis zur GLM-Familie. GLM-5.1 ist aktuell auch über die Z.ai Cloud nutzbar. Bei dieser Variante werden Daten auf Servern in China verarbeitet, was für EU-Unternehmen mit personenbezogenen Daten nicht in Frage kommt. Für den DSGVO-konformen Einsatz ist die lokal betriebene Variante GLM-4.7 Flash die richtige Wahl, oder GLM-5.1 auf eigenem Server, sobald die Open-Source-Gewichte verfügbar sind.
Warum lokale LLMs plötzlich so gut geworden sind
Bis vor kurzem waren lokale LLMs bestenfalls eine Notlösung, wenn Cloud-KI aus Datenschutzgründen nicht in Frage kam. Die Qualität lag deutlich hinter ChatGPT und Co. Das hat sich grundlegend geändert, und der Hauptgrund ist die MoE-Architektur (Mixture of Experts).
Die Idee dahinter ist einfach. Statt alle Parameter eines Modells für jede Anfrage zu nutzen, werden nur die relevanten “Experten” aktiviert. Qwen 3.6-35B-A3B wählt aus 256 Experten die passenden aus und nutzt nur 3 Milliarden statt 35 Milliarden Parameter. Das gesamte Wissen steckt trotzdem im Modell, es wird nur jeweils der Teil abgerufen, der zur aktuellen Aufgabe passt.
Modelle, die früher einen teuren Server gebraucht hätten, laufen heute auf einer Workstation. Das hat die Hürde für lokale KI im Mittelstand massiv gesenkt.
Wie sich die vier lokalen LLMs im Alltag unterscheiden
Benchmarks messen standardisierte Aufgaben. Der Arbeitsalltag ist weniger standardisiert. In unseren Projekten sehen wir vier wiederkehrende Muster.
Qwen 3.6 liefert die zuverlässigsten Ergebnisse über verschiedene Aufgabentypen hinweg. Texte, Zusammenfassungen, Übersetzungen, Bildanalyse, Coding, alles auf solidem bis sehr gutem Niveau. Mit der neuen Thinking Preservation hält das Modell auch in mehrstufigen Agenten-Workflows den roten Faden, was es zu einer guten Basis für Wissensmanagement- oder Automatisierungsprojekte macht.
Gemma 4 überzeugt besonders in deutschsprachigen Unternehmen, wo die Sprachqualität spürbar präziser ausfällt. Die 31B-Dense-Variante reagiert außerdem gut auf Fine-Tuning und eignet sich als Basis für branchen- oder fachspezifische Anpassungen, etwa für eine Steuerkanzlei mit eigenem Begriffsvokabular oder eine Klinik mit medizinischer Terminologie.
GPT-OSS überrascht bei Aufgaben, die mehrere Denkschritte erfordern. Wenn andere Modelle nach dem zweiten oder dritten Schritt ungenau werden, bleibt GPT-OSS präzise. Das ist besonders bei Datenanalysen und strukturierten Auswertungen spürbar, etwa wenn ein Steuerberater Jahresabschlüsse auf Plausibilität prüfen lässt.
GLM-4.7 Flash ist beim Programmieren gut darin, bestehenden Code zu verstehen. Fehlersuche, Verbesserungsvorschläge und das Arbeiten mit mehreren Dateien gleichzeitig liegen GLM besonders gut. Mit GLM-5.1 ist im März 2026 ein Nachfolger erschienen, der beim Coding nochmal einen deutlichen Sprung macht.
KI-Berater & Trainer | Gründer von gewusst:KI
Wir helfen Unternehmen, KI sinnvoll einzusetzen. Praxisnah und herstellerunabhängig.
Verwandte Artikel
Gemma 4 vs. Qwen 3.6 im Unternehmenstest: Googles und Alibabas offene KI-Modelle im Vergleich
Google hat Anfang April 2026 Gemma 4 unter Apache-2.0 veröffentlicht, Alibaba zwei Wochen später Qwen 3.6 35B-A3B. Wie sich die Modelle unterscheiden, wie sie gegen Nemotron 3 Super und GLM-5.1 abschneiden und wofür Sie sie im Unternehmen einsetzen können.
Lokale KI: Was ist das und warum setzen immer mehr Unternehmen darauf?
Lokale KI bedeutet: Sprachmodelle laufen auf eigener Hardware, keine Daten verlassen das Unternehmen. Wir erklären, wie das funktioniert, welche Modelle es gibt und für wen sich der Einstieg lohnt.