Eigenes KI-Modell trainieren: Was es wirklich kostet

OpenAI hat für das Training von GPT-5 rund 460 Millionen Euro pro Trainingsdurchlauf ausgegeben. Insgesamt investiert das Unternehmen über 8 Milliarden Euro jährlich allein in Rechenleistung für Forschung und Entwicklung. Wenn ein mittelständisches Unternehmen dann fragt “Können wir nicht einfach eine eigene KI trainieren?”, ist die ehrliche Antwort: Kommt darauf an, was du damit meinst.

Denn das Problem ist nicht mangelnde Ambition. Das Problem ist ein weit verbreitetes Missverständnis darüber, was “KI trainieren” eigentlich bedeutet. Wenn die meisten Menschen davon sprechen, eine KI “zu trainieren”, meinen sie in Wirklichkeit etwas ganz anderes. Und genau das ist die gute Nachricht.

Erst einmal: Was bedeutet “KI trainieren” überhaupt?

Stell dir vor, du willst einen neuen Mitarbeiter für dein Unternehmen. Du hast grundsätzlich vier Möglichkeiten:

Einweisung geben: Du erklärst einem fertigen Fachmann kurz, was du von ihm erwartest. Er bringt sein Wissen mit, du gibst nur die Richtung vor.
Nachschlagewerke bereitstellen: Du gibst ihm Zugriff auf deine internen Handbücher und Dokumente, damit er bei Bedarf nachschlagen kann.
Weiterbildung: Du schickst ihn auf ein Seminar, damit er sich einen bestimmten Stil oder Spezialwissen aneignet.
Von Geburt an großziehen: Du ziehst einen Menschen von klein auf selbst groß und bringst ihm alles bei, von der Sprache bis zum Fachwissen.

Die vierte Option klingt absurd? Genau das ist aber, was die meisten Menschen meinen, wenn sie von “eigene KI trainieren” sprechen. Und genau das ist auch das, was Hunderte Millionen kostet.

Die gute Nachricht: Für 99 % aller Unternehmensanwendungen reichen die ersten drei Optionen völlig aus, und die sind erschwinglich.

Stufe 1: Prompt Engineering (Kosten: 0 Euro)

Die einfachste und oft unterschätzte Methode: Du sagst der KI einfach, was sie tun soll, und zwar richtig gut.

Prompt Engineering ist die Kunst, Anweisungen so zu formulieren, dass die KI genau das liefert, was du brauchst. Kein Training, keine Programmierung, keine Kosten.

Ein Beispiel: Statt: “Schreib mir eine E-Mail.” Besser: “Du bist ein erfahrener Vertriebsmitarbeiter eines mittelständischen Maschinenbauunternehmens. Schreibe eine freundliche, aber professionelle Antwort auf eine Kundenanfrage zum Liefertermin. Der Ton sollte lösungsorientiert sein, nicht entschuldigend.”

Der Unterschied ist enorm. Die KI weiß jetzt, welche Rolle sie einnehmen soll, welchen Ton sie treffen muss und was das Ziel ist.

Für wen ist das geeignet?

Für alle, die sofort starten wollen
Für Aufgaben, bei denen kein firmenspezifisches Wissen nötig ist
Für das Testen, ob KI überhaupt der richtige Ansatz ist

Die Grenzen: Die KI kennt deine internen Daten nicht. Sie kann nicht wissen, wie deine Preisliste aussieht oder was in deinem Wartungshandbuch steht.

Stufe 2: RAG (Kosten: ab ca. 5.000 Euro)

Hier wird es für Unternehmen richtig spannend. RAG steht für “Retrieval Augmented Generation”, aber vergiss den Begriff sofort wieder. Nennen wir es einfach: Der intelligente Aktenschrank.

Die Idee ist simpel: Statt die KI mit deinem Firmenwissen zu “trainieren”, gibst du ihr Lesezugriff auf deine Dokumente. Wenn jemand eine Frage stellt, schlägt die KI erst in deinen Unterlagen nach und formuliert dann eine Antwort basierend auf dem, was sie gefunden hat.

Das Entscheidende: Die KI lernt hier nichts dauerhaft. Sie speichert deine Daten nicht in ihrem “Gehirn”. Sie blättert nur nach, wie ein kluger Mitarbeiter mit einem guten Ablagesystem.

Warum ist das so wichtig?

Aktualität: Ändern sich deine Preise oder Prozesse? Tausch einfach das Dokument aus. Die KI weiß es sofort.
Datenschutz: Die Daten bleiben auf deinem Server. Kein Cloud-Anbieter sieht deine Geschäftsgeheimnisse.
Quellenangaben: Die KI kann sagen: “Das steht in Handbuch X, Seite 12.” Keine Halluzinationen, keine erfundenen Fakten.

Für die technische Tiefe zu RAG siehe auch unseren Blogartikel: Wie du der KI dein Firmenwissen beibringst. Einen konkreten Leitfaden zur Umsetzung findest du im Praxisguide: RAG-System aufsetzen.

Für wen ist das geeignet?

Unternehmen mit vorhandenen Dokumenten (Handbücher, FAQs, Richtlinien)
Wenn Datenschutz und Datensouveränität wichtig sind
Wenn sich dein Wissen regelmäßig ändert

Handwerk & Produktion

Wartungshandbücher, Sicherheitsvorschriften und Bedienungsanleitungen direkt abrufbar, ohne seitenlanges Suchen.

Dienstleistung & Beratung

Angebots- und Vertragsvorlagen, interne Prozessbeschreibungen und Kundenfeedback als Wissensquelle nutzen.

Kanzleien & Gesundheit

Gesetze, Abrechnungsregeln und interne Leitlinien für schnelle Antworten, ohne sensible Daten in die Cloud zu geben.

Stufe 3: Fine-Tuning (Kosten: ab ca. 5.000 Euro)

Jetzt kommen wir in den Bereich, der tatsächlich “Training” genannt werden kann, auch wenn es eher eine Weiterbildung ist als eine komplette Ausbildung.

Beim Fine-Tuning nimmst du ein fertiges Sprachmodell (wie Llama, Qwen oder Mistral) und trainierst es mit deinen eigenen Beispieldaten nach. Das Modell verändert dabei seine “Synapsen”, es lernt einen bestimmten Stil, eine Fachsprache oder ein Verhalten.

Ein Vergleich: Stell dir einen ausgebildeten Koch vor. Beim Fine-Tuning bringst du ihm bei, ausschließlich bayerische Küche zu kochen. Er vergisst nicht, wie man kocht, aber er wird zum Spezialisten für Schweinebraten und Knödel.

Wann macht Fine-Tuning Sinn?

Wenn die KI einen ganz bestimmten Schreibstil oder Jargon beherrschen soll
Wenn du tausende ähnliche Aufgaben automatisieren willst (z. B. Klassifizierung von Support-Tickets)
Wenn Prompt Engineering und RAG nicht ausreichen

Was kostet Fine-Tuning konkret?

Die Kosten hängen stark davon ab, welchen Weg du wählst:

Cloud-APIs (z. B. OpenAI)

GPT-4o Fine-Tuning: ca. 23 Euro pro Million Trainingstokens. Ein typischer Datensatz mit 100.000 Tokens kostet unter 10 Euro an reinen API-Kosten. Der eigentliche Aufwand steckt in der Datenvorbereitung.

Lokal mit Open Source

Ein 7B-Modell (z. B. Qwen oder Llama) mit LoRA: 900 bis 2.800 Euro an Cloud-GPU-Kosten. Oder einmalig ca. 1.500 Euro für eine eigene RTX 4090, die sich nach wenigen Wochen amortisiert.

Die Herausforderungen:

Daten: Du brauchst hunderte bis tausende hochwertige Beispiele. “Müll rein, Müll raus” gilt hier besonders, warum Datenqualität so entscheidend ist, zeigt unser Artikel Warum die beste KI an deiner Ablage scheitert.
Einfrieren: Das Wissen ist auf dem Stand des Trainings eingefroren. Ändern sich deine Prozesse, musst du neu trainieren.
Hardware: Auch mit modernen Methoden wie LoRA oder QLoRA brauchst du vernünftige Rechenleistung.

Was sind LoRA und QLoRA? Statt alle Milliarden Parameter eines Modells neu zu trainieren (was Wochen dauern und über 100 GB Grafikspeicher benötigen würde), trainiert LoRA nur einen winzigen Bruchteil, typischerweise unter 1 %. Das reduziert den Speicherbedarf auf 16 bis 24 GB. QLoRA geht noch weiter und komprimiert das Modell zusätzlich auf 8 bis 12 GB. In der Praxis erreichen beide Methoden 90 bis 95 Prozent der Qualität eines vollständigen Fine-Tunings.

Typische Fehler beim Fine-Tuning:

→ Zu wenige Trainingsdaten. Unter 500 hochwertigen Beispielen bringt Fine-Tuning meist wenig. Quantität ersetzt keine Qualität.
→ Inkonsistente Daten. Wenn deine Beispieldaten selbst widersprüchlich sind, lernt das Modell die Widersprüche mit.
→ Fine-Tuning statt RAG. Viele setzen Fine-Tuning ein, wo RAG einfacher, günstiger und flexibler wäre.
→ Kein Testset. Ohne eine Testmenge siehst du nicht, ob das Modell wirklich besser geworden ist, oder ob es sich nur an die Trainingsdaten "erinnert".

RAG oder Fine-Tuning? Der Konsens 2026

Die Frage “RAG oder Fine-Tuning?” ist 2026 keine Entweder-oder-Entscheidung mehr. Die Faustformel lautet: Flüchtiges Wissen gehört in RAG, stabiles Verhalten ins Fine-Tuning.

Konkret: Wenn die KI falsche Fakten liefert (veraltete Preise, falsche Ansprechpartner), löst RAG das Problem. Wenn die KI zwar die richtigen Informationen findet, sie aber im falschen Ton oder Format ausgibt, ist Fine-Tuning der richtige Hebel.

Für die allermeisten KMU-Anwendungen ist RAG der bessere Startpunkt: günstiger, flexibler und sofort aktualisierbar.

Stufe 4: Pre-Training (Kosten: Hunderte Millionen Euro)

Und hier sind wir bei dem, was die meisten Menschen eigentlich meinen, wenn sie “KI trainieren” sagen: Ein Sprachmodell von Grund auf selbst erstellen.

Die nackten Zahlen:

GPT-4 (2023): über 92 Millionen Euro Trainingskosten
GPT-5 (2025): rund 460 Millionen Euro pro Trainingsdurchlauf
Googles Gemini Ultra: geschätzt bis zu 175 Millionen Euro
Trend: Die nächste Modellgeneration wird voraussichtlich über 1 Milliarde Euro pro Modell kosten

Und das sind nur die reinen Rechenkosten. Dazu kommen: Datenakquise, Datenbereinigung, Spezialisten-Gehälter, Infrastruktur, Strom.

Was passiert beim Pre-Training? Das Modell liest buchstäblich das halbe Internet. Milliarden von Texten, Büchern, Artikeln. Es lernt Grammatik, Fakten, Zusammenhänge, alles, was Sprache ausmacht. Das Ergebnis ist ein “rohes” Sprachmodell, das noch nicht besonders nützlich ist. Es kann Sätze vervollständigen, aber noch keine Fragen beantworten oder Anweisungen befolgen.

Warum macht das niemand im Mittelstand?

Die Kosten sind astronomisch
Es braucht Monate bis Jahre Entwicklungszeit
Du konkurrierst mit den besten Open-Source-Modellen, die kostenlos sind
Selbst wenn du es schaffst: Du hast nur die Grundlage, nicht die Anpassung

Der einzige Grund, ein Modell von Grund auf zu trainieren, wäre eine Sprache oder Domäne, die in existierenden Modellen nicht abgedeckt ist. Für deutsche Geschäftsdokumente ist das definitiv nicht der Fall.

Die Übersicht: Welche Methode für welchen Zweck?

Prompt Engineering

Kosten: 0 Euro | Zeit: Sofort
Beste Wahl für: Einstieg, allgemeine Aufgaben, erste Tests

RAG (Wissen auf Abruf)

Kosten: ab 5.000 Euro | Zeit: 2 bis 4 Wochen
Beste Wahl für: Wissensmanagement, Support, Dokumentation

Fine-Tuning

Kosten: ab 5.000 Euro | Zeit: 4 bis 8 Wochen
Beste Wahl für: Spezielle Schreibstile, Klassifizierungsaufgaben

Pre-Training

Kosten: Hunderte Millionen Euro | Zeit: Monate bis Jahre
Beste Wahl für: Große Tech-Konzerne, Forschungsinstitute

Lokal oder Cloud: Wo laufen die Modelle?

Eine Frage, die wir genauso häufig hören wie die nach dem Training: “Müssen unsere Daten in die Cloud?”

Die Antwort: Nein, müssen sie nicht. Gerade für Prompt Engineering und RAG gibt es ausgereifte lokale Lösungen. Mit Ollama läuft ein leistungsfähiges Sprachmodell auf einem normalen Bürorechner oder Server im eigenen Netzwerk. Die Daten verlassen das Haus nie.

Wer Cloud-GPUs für Fine-Tuning mieten will, zahlt aktuell zwischen 1,80 und 3,70 Euro pro Stunde für eine NVIDIA H100 (80 GB). Eine NVIDIA A100 gibt es bereits ab 1,20 Euro pro Stunde. Für ein 7B-Modell mit LoRA reicht oft eine einzige GPU für wenige Stunden.

Für eine übersichtliche Oberfläche, über die Mitarbeiter mit dem lokalen Modell interagieren können, eignet sich AnythingLLM. Es lässt sich mit eigenen Dokumenten verbinden und bietet eine Chat-Oberfläche ohne Programmierkenntnisse.

Wer Abläufe automatisieren will, ohne Code schreiben zu müssen, findet in n8n oder Flowise gute Einstiegspunkte.

Tipp:

Bevor du in Fine-Tuning oder teure Cloud-Abos investierst, teste erst eine lokale RAG-Lösung mit deinen wichtigsten Dokumenten. In vielen Fällen deckt das bereits 80 % der Anforderungen ab, bei einem Bruchteil der Kosten und ohne Datenschutzbedenken. Welche Plattform für lokale KI am besten zu deinem Setup passt, zeigt unser Vergleich: Ollama vs. LM Studio vs. GPT4All.

Was braucht ihr wirklich?

Bevor wir mit Unternehmen über technische Methoden sprechen, stellen wir immer dieselben vier Fragen:

1. Was soll die KI konkret tun? Eine KI, die Supportanfragen einordnet, braucht andere Methoden als eine, die Angebote im Firmenstil formuliert.

2. Welche Daten habt ihr? Handbücher und PDFs sind eine gute Grundlage für RAG. Tausende strukturierte Ein-Ausgabe-Paare sind die Voraussetzung für sinnvolles Fine-Tuning. Wer keine Daten hat, kann auch nichts trainieren.

3. Wie oft ändern sich eure Prozesse? RAG ist bei sich ändernden Inhalten klar im Vorteil: Dokument austauschen, fertig. Fine-Tuning erfordert bei jeder relevanten Änderung einen neuen Trainingsdurchlauf.

4. Was darf die KI wissen? Geht es um sensible Kundendaten, Betriebsgeheimnisse oder medizinische Informationen? Dann ist eine lokale Lösung in der Regel Pflicht, keine Option.

Diese Fragen klingen einfach. In der Praxis decken sie meist auf, dass die ursprüngliche Idee, eine eigene KI zu trainieren, gar nicht das eigentliche Problem lösen würde.

Fazit: Du brauchst kein eigenes Modell. Du brauchst die richtige Strategie.

Die Frage “Kann ich meine eigene KI trainieren?” ist eigentlich die falsche Frage. Die richtige Frage lautet: “Welche Methode bringt mir den größten Nutzen bei vertretbarem Aufwand?” Wenn du Unterstützung bei der Entwicklung einer passenden KI-Strategie brauchst, helfen wir dir gerne weiter.

Für die allermeisten Unternehmen lautet die Antwort: Starte mit gutem Prompt Engineering. Wenn du Firmenwissen einbinden willst, setz auf RAG. Und nur wenn das nicht reicht, wirklich nur dann, denk über Fine-Tuning nach.

Das Schöne daran: Du kannst klein anfangen und dich hocharbeiten. Prompt Engineering kostet dich nichts außer Zeit. Und mit einer lokalen RAG-Lösung auf Basis von Ollama bleiben deine Daten dort, wo sie hingehören: bei dir.

Du willst wissen, welcher Ansatz zu euch passt?

Kein Verkaufsgespräch, sondern eine ehrliche Einschätzung, ob und wie KI bei euch Sinn macht. Wir schauen gemeinsam auf eure Situation und sagen euch, wo ihr am sinnvollsten anfangt.

Schreib uns