Zum Inhalt springen
I

IBM Granite 4.1: KI-Tool Test & Bewertung

4.0
Sprachmodelle Kostenlos Kostenlos unter Apache 2.0, kommerziell uneingeschränkt nutzbar Self-Hosted DSGVO-konform Open Source

Granite 4.1 ist IBMs Open-Source-Modellfamilie für den produktiven Einsatz im Unternehmen. Sie umfasst drei dichte Sprachmodelle (3B, 8B, 30B), eine Vision-Variante für Tabellen- und Diagrammextraktion, mehrere Speech-Modelle für Transkription, Guardian-Modelle für Inhaltsfilter und mehrsprachige Embeddings. Alle stehen unter Apache 2.0 und lassen sich lokal, in der eigenen Cloud oder über IBM watsonx betreiben.

Zuletzt aktualisiert: 6. Mai 2026

IBM hat Granite 4.1 am 29. April 2026 veröffentlicht und damit eine der wenigen offenen Modellfamilien gebaut, die explizit auf den Unternehmenseinsatz zielt: vorhersagbare Antwortqualität, niedrige Betriebskosten und eine klare Lizenz. Die Familie bündelt Sprache, Vision, Speech und Embeddings in einem konsistenten Stack, der sich lokal oder in der eigenen Cloud betreiben lässt.

Die Familie im Überblick

ModellParameterSchwerpunkt
Granite 4.1 3B3 Mrd.Schnelles Modell für Edge und einfache Aufgaben, bis 128K Kontext
Granite 4.1 8B8 Mrd.Hauptmodell, schlägt den 32B MoE-Vorgänger, bis 512K Kontext
Granite 4.1 30B30 Mrd.Maximale Qualität, bis 512K Kontext
Granite Vision 4.14 Mrd.Tabellen, Diagramme und Schlüssel-Wert-Paare aus Dokumenten
Granite Speech 4.12 Mrd.Transkription mit 5,33 Prozent WER auf OpenASR
Granite Guardian 4.18 Mrd.Inhaltsfilter und Schadenserkennung
Embedding Multilingual R297 Mio.Mehrsprachige Embeddings für über 200 Sprachen

Alle Sprachmodelle sind klassische Dense Transformer mit Grouped Query Attention und SwiGLU. IBM hat bewusst auf Mixture-of-Experts verzichtet und setzt stattdessen auf saubere Trainingsdaten: 15 Billionen Token in mehreren Phasen, inklusive Reinforcement Learning.

Wichtigste Funktionen

  • Tool Calling auf Top-Niveau: Das 8B-Instruct-Modell erreicht 68,3 Punkte im BFCL-V3-Benchmark für Tool Calling und übertrifft damit das eigene 32B MoE aus Granite 4.0. Für agentenbasierte Workflows mit n8n, LangChain oder eigenen Python-Skripten ist das ein starkes Argument.
  • Lange Kontexte: Das 8B- und 30B-Modell verarbeiten bis zu 512K Token, das 3B-Modell bis 128K. Damit lassen sich ganze Aktenordner, lange Verträge oder umfangreiche Codebasen in einer einzigen Anfrage analysieren.
  • Vision für Dokumente: Granite Vision 4.1 ist auf Geschäftsdokumente trainiert. Es liest Tabellen, Diagramme und Formulare zuverlässig aus und liefert auf sieben Vision-Benchmarks die jeweils höchste Durchschnittsleistung in seiner Klasse.
  • Speech für Transkription: Mit 5,33 Prozent Word Error Rate gehört Granite Speech 4.1 zu den besten Modellen im OpenASR-Leaderboard. Drei Varianten decken Echtzeit-Transkription, höchste Genauigkeit und nicht-autoregressiven Hochdurchsatz ab.
  • Guardian für Compliance: Granite Guardian 4.1 prüft Eingaben und Ausgaben auf schädliche Inhalte. Das ist besonders relevant, wenn Granite-Modelle in Kundenchats oder internen Self-Service-Tools eingesetzt werden.
  • Embeddings in über 200 Sprachen: Das mehrsprachige Embedding-Modell mit nur 97 Mio. Parametern ist klein genug für günstige Vektor-Datenbanken und deckt deutlich mehr Sprachen ab als die Sprachmodelle selbst. Ideal für RAG-Systeme mit internationalen Inhalten.

Preise und Tarife

Granite 4.1 ist vollständig kostenlos unter Apache 2.0 verfügbar. Es gibt keine Lizenzgebühren, keine Einschränkungen für kommerzielle Nutzung und keine Pflicht zu IBMs Cloud. Beim Self-Hosting fallen nur Hardware- und Stromkosten an. Das 3B-Modell läuft auf einem aktuellen MacBook oder einer GPU mit 8 GB VRAM, das 8B-Modell auf 16 GB VRAM oder einem Mac mit 32 GB Unified Memory, das 30B-Modell braucht in voller Präzision rund 60 GB Speicher, mit FP8-Quantisierung etwa 30 GB. Wer keine eigene Infrastruktur betreiben will, bekommt Granite 4.1 als Service über IBM watsonx, OpenRouter oder Replicate, dort fallen nutzungsabhängige API-Gebühren an.

Für wen ist IBM Granite 4.1 geeignet?

  • Mittelständische Unternehmen mit Datenschutzanforderungen: Wer Verträge, Personaldaten oder Kundenkommunikation lokal verarbeiten will, bekommt mit Granite 4.1 eine vollständige offene Modellfamilie mit klarer Lizenz. IBM positioniert die Modelle explizit für den Enterprise-Einsatz, was sich in der Stabilität und der Tool-Calling-Qualität widerspiegelt.
  • IT-Dienstleister und Berater: Die einheitliche Familie aus Sprache, Vision, Speech und Embeddings deckt typische Kundenprojekte komplett ab, ohne dass Modelle aus verschiedenen Quellen zusammengestellt werden müssen. Das vereinfacht Wartung und Compliance-Argumentation gegenüber Kunden.
  • Teams mit langen Dokumenten: Der 512K-Kontext beim 8B- und 30B-Modell macht Granite zu einer guten Wahl für Anwendungen wie Aktenanalyse, juristische Recherche oder die Auswertung kompletter Codebasen. Der Vorteil: Diese Aufgaben laufen auf eigener Hardware, nicht in einer US-Cloud.

DSGVO und Datenschutz

Granite 4.1 läuft beim Self-Hosting vollständig in der eigenen Infrastruktur. Es werden keine Daten an IBM oder andere Anbieter übertragen, keine Telemetrie gesendet und keine Trainings-Loops zurück zu IBM eingebaut. Damit ist die DSGVO-Konformität allein eine Frage des Betriebs: Wer die Modelle auf einem Server in Deutschland oder der EU laufen lässt, hat keine Drittland-Übertragung und keine Auftragsverarbeitung mit US-Bezug. Über IBM watsonx ist auch ein Betrieb in einer EU-Region möglich, dann mit Auftragsverarbeitungsvertrag und IBM als Dienstleister. Die Apache 2.0 Lizenz erlaubt jede kommerzielle Nutzung ohne Rückfragen oder zusätzliche Verträge.

Alternativen zu IBM Granite 4.1

  • Google Gemma 4: Größere Modellpalette mit 26B MoE und 31B Dense, nativ multimodal mit 256K Kontext. Für reine Sprachaufgaben oft die stärkere Wahl, dafür ohne dedizierte Speech- und Guardian-Modelle.
  • Qwen 3.6: Alibabas offene Familie mit Varianten von 27B Dense bis 122B MoE. Sehr stark in Reasoning und Code, aber als chinesisches Modell für manche Compliance-Szenarien heikel.
  • GLM 5: Zhipus offenes Reasoning-Modell mit hoher Code-Qualität. Schmaler aufgestellt als Granite (nur Sprache, kein Vision/Speech-Stack), dafür stärker bei agentischen Aufgaben.

Vorteile

  • Dense-Architektur: 8B-Modell schlägt das eigene 32B MoE-Vorgängermodell
  • Bis zu 512K Kontext bei 8B und 30B, 128K bei 3B
  • Komplette Familie aus Sprache, Vision, Speech, Guardian und Embeddings
  • Apache 2.0, kommerziell ohne Einschränkungen einsetzbar
  • Verfügbar in Ollama, LM Studio, vLLM, watsonx und OpenRouter ab Tag 1

Nachteile

  • Nur 12 Sprachen offiziell unterstützt, deutsche Qualität gut, aber nicht Spitzenklasse
  • 30B-Variante braucht 60 GB Speicher in voller Präzision
  • Kein nativer Mehrkanal-Multimodal-Input wie bei Gemini oder Gemma
  • Granite Vision und Speech sind eigene Modelle, kein All-in-One

Anwendungsgebiete

Lokaler KI-Assistent für UnternehmenTool Calling und Agenten-WorkflowsTabellen und Diagramme aus Dokumenten extrahierenSprachtranskription mit niedriger FehlerrateMehrsprachige Embeddings für RAG-Systeme