ASUS Ascent GX10 im Praxistest: Lokale KI mit NVIDIA DGX Spark Technologie
Wie wir mit dem ASUS GX10 und Qwen 3.5 HR-Daten, Produktionskennzahlen und Verträge direkt im Büro mit KI verarbeiten – schnell, unabhängig und unter voller Kontrolle.
Bewerbungsunterlagen auswerten, Produktionskennzahlen analysieren, interne Berichte zusammenfassen. KI kann das alles in Sekunden. Dafür brauchen Sie heute keinen Cloud-Dienst mehr. Ein kompakter Mini-PC auf dem Schreibtisch reicht.
Wir haben uns den ASUS Ascent GX10 ins Büro gestellt, einen Mini-PC auf Basis der NVIDIA DGX Spark Plattform, und nutzen ihn täglich für genau solche Aufgaben. In diesem Artikel zeigen wir, was der Rechner kann, wie schnell er arbeitet, was er kostet und für wen sich die Investition lohnt.
KI, die bei Ihnen bleibt
Es gibt Daten, bei denen Sie einfach ein besseres Gefühl haben, wenn sie das Haus nicht verlassen. Bewerbungen, Gehaltsabrechnungen, Produktionsrezepturen, Vertragsentwürfe, solche Informationen gehören ins Unternehmen. Mit einem lokalen KI-Rechner wie dem ASUS GX10 können Sie all diese Daten mit KI verarbeiten und behalten gleichzeitig die volle Kontrolle:
- HR und Personal: Lebensläufe zusammenfassen, Mitarbeiterbefragungen auswerten, Zeugnisse analysieren
- Produktion: Qualitätsprotokolle auswerten, Schichtberichte aufbereiten, Abweichungen erkennen
- Finanzen: Quartalsberichte analysieren, Kalkulationen prüfen, Strategiepapiere zusammenfassen
- Recht: Vertragsentwürfe durcharbeiten, Compliance-Bewertungen vorbereiten
Das alles passiert direkt auf Ihrem eigenen Gerät. Keine Internetverbindung nötig, keine externen Server beteiligt.
Einen ausführlichen Vergleich zwischen lokaler und cloudbasierter KI finden Sie in unserem Artikel Lokale KI vs. Cloud-KI.
Die Hardware: ASUS Ascent GX10
Der ASUS Ascent GX10 ist ein kompakter Mini-PC mit dem NVIDIA GB10 Grace Blackwell Chip, derselben Technologie, die auch im NVIDIA DGX Spark steckt. Die beiden Geräte sind technisch baugleich, der GX10 ist mit rund 3.000 € aber günstiger als das NVIDIA-Original. Auch Dell, Lenovo, MSI und andere Hersteller bieten Varianten mit dem gleichen NVIDIA DGX Spark Chip an. Sie haben also die freie Wahl beim Anbieter.
Was steckt drin?
| Chip | NVIDIA GB10 Grace Blackwell (DGX Spark Plattform) |
| Arbeitsspeicher | 128 GB (gemeinsam für CPU und GPU) |
| Speicher | 1 TB SSD |
| Stromverbrauch | ca. 25 W im Leerlauf, ca. 170 W unter Last |
| Größe | 15 × 15 × 5 cm |
| Preis | ca. 3.000 € brutto |
Warum 128 GB den Unterschied machen
Das Besondere am GX10 ist der Arbeitsspeicher: 128 GB, die sich CPU und GPU teilen. Bei einer herkömmlichen Grafikkarte (z. B. RTX 4090) stehen der KI nur 24 GB Grafikspeicher zur Verfügung. Der NVIDIA GB10 Chip im GX10 kann dagegen auf die vollen 128 GB zugreifen.
Das bedeutet: Auch große KI-Modelle passen komplett in den Speicher. Und der Rechner kann mit Dokumenten arbeiten, die weit über 100 Seiten lang sind. Für Unternehmen, die regelmäßig mit langen Verträgen, Berichten oder Protokollen arbeiten, ist genau das der entscheidende Vorteil.
Das KI-Modell: Klein genug zum Rennen, groß genug zum Denken
Auf dem GX10 läuft Qwen 3.5, ein Open-Source-Modell, das jeder frei nutzen darf (Apache-2.0-Lizenz). Die Besonderheit: Das Modell hat 35 Milliarden Parameter, aktiviert aber bei jeder Anfrage nur 3 Milliarden davon.
Klingt abstrakt? Eine Analogie: Stellen Sie sich ein Unternehmen mit 256 Spezialisten vor. Bei jeder Frage werden nur die 8 relevantesten Experten hinzugezogen. Das Ergebnis: die Qualität eines großen Teams, aber die Geschwindigkeit eines kleinen. In der KI-Welt heißt diese Technik “Mixture of Experts”. Sie ist der Grund, warum ein 35-Milliarden-Parameter-Modell auf der NVIDIA DGX Spark Hardware flüssig läuft.
Wie schnell ist das?
Rund 55 Wörter pro Sekunde, schneller, als Sie lesen können.
Das Modell gibt es in verschiedenen Varianten: eine hochpräzise Version (BF16, 65 GB) und eine komprimierte Version (Q8, 35 GB). Wir nutzen im Alltag die komprimierte Variante. Sie ist schneller und der Qualitätsunterschied ist im Praxiseinsatz gering.
Zusätzlich bietet das Modell einen “Denkmodus”: Vor der Antwort kann es zunächst intern nachdenken, ähnlich wie ein Mensch, der erst überlegt, bevor er spricht. Das verbessert die Qualität bei komplexen Fragen, braucht aber mehr Zeit. Für einfache Aufgaben wie Zusammenfassungen schalten wir den Denkmodus ab. Dann wird es nochmal deutlich schneller.
Wofür wir den GX10 einsetzen
HR-Formulare und Bewerbungen
Bewerbungsunterlagen, Mitarbeiterbefragungen, Onboarding-Formulare. Mit dem lokalen Setup lassen sich Lebensläufe zusammenfassen, Fragebögen auswerten, Zeugnisformulierungen einordnen oder Gesprächsleitfäden vorbereiten. Alles bleibt auf dem eigenen Rechner, und Sie können die KI bedenkenlos mit vertraulichen Personaldaten arbeiten lassen.
Produktionsdaten
Ausschussquoten, Maschinenparameter, Qualitätskennzahlen, Rezepturen. In der Fertigung gibt es viele Daten, die Sie natürlich im Unternehmen behalten möchten. Das lokale Modell kann Produktionsberichte zusammenfassen, Abweichungen identifizieren, Schichtberichte aufbereiten und technische Dokumentationen durchsuchbar machen.
Vertrauliche Geschäftsdokumente
Verträge, Strategiepapiere, Finanzanalysen, Compliance-Prüfungen. Bei solchen Dokumenten ist es einfach gut zu wissen, dass die Daten das eigene Büro nicht verlassen. Sie können dem Modell ein 80-seitiges Dokument geben und fragen: “Fasse die drei wichtigsten Punkte zusammen.” Das funktioniert dank des großen Kontextfensters von 265.000 Token.
Grenzen: Was Sie wissen sollten
Der ASUS GX10 bzw. die NVIDIA DGX Spark Plattform kann viel, aber nicht alles:
- Bildgenerierung ist nicht seine Stärke, dafür gibt es spezialisierte Hardware
- Die größten Cloud-Modelle haben bei hochkomplexem Reasoning noch einen Vorsprung
- Bei vielen gleichzeitigen Nutzern sinkt die Geschwindigkeit. Für große Teams lohnt sich ein zweites Gerät
- Modelltraining ist nicht vorgesehen. Der Rechner ist für die Nutzung fertiger Modelle gebaut
Warum llama.cpp und nicht Ollama?
Wer sich mit lokaler KI beschäftigt, stößt schnell auf Ollama. Es ist der einfachste Weg, KI-Modelle lokal zu starten, und wir empfehlen es regelmäßig als Einstieg (→ Unser Ollama-Guide).
Für den GX10 nutzen wir stattdessen llama.cpp direkt, die Inference-Engine, auf der Ollama aufbaut. Der Grund: Auf der noch jungen NVIDIA DGX Spark Hardware wollen wir volle Kontrolle über die Einstellungen und immer auf dem neuesten Stand sein. Optimierungen für den GB10-Chip landen zuerst in llama.cpp. Ollama zieht Wochen bis Monate später nach.
Für den Einstieg und auf “normaler” Hardware bleibt Ollama die bessere Wahl. Auf dem GX10 fährt man mit der direkten Variante besser.
Für Technik-Interessierte: Unser Setup im Detail
Dieser Abschnitt ist für alle, die einen ASUS GX10, NVIDIA DGX Spark oder ein anderes GB10-Gerät besitzen und sich für die technische Umsetzung interessieren.
Betriebssystem und Software
- DGX OS (Ubuntu-basiert), speziell für den NVIDIA GB10 optimiert
- CUDA 13.0, Treiberversion 580.126.09
- llama.cpp aus dem Source gebaut (Tag b8182, 28.02.2026)
Installierte Modelle
| Modell | Quantisierung | Dateigröße |
|---|---|---|
| Qwen 3.5 35B-A3B | BF16 (unquantisiert) | 65 GB |
| Qwen 3.5 35B-A3B | Q8_0 | 35 GB |
| Qwen3-Coder-30B-A3B | Q8_0 | 31 GB |
Alle drei sind Mixture-of-Experts-Modelle mit 3 Milliarden aktiven Parametern, ideal für den GB10-Chip.
Server-Konfiguration
Der llama-server läuft als systemd-Service und startet automatisch beim Booten:
llama-server \
-m ~/models/Qwen_Qwen3.5-35B-A3B-Q8_0.gguf \
-ngl 999 \
-c 262144 \
-np 1 \
--no-mmap \
--jinja \
-fa 1 \
--host 0.0.0.0 \
--port 8080
Die wichtigsten Flags:
-ngl 999= alle Layer auf die GPU, nichts auf der CPU-c 262144= 256K Token Kontextfenster-fa 1= Flash Attention für effizientere Speichernutzung--jinja= Jinja2-Chat-Templates für korrekte Prompt-Formatierung--host 0.0.0.0= der Server ist im lokalen Netzwerk erreichbar
Modellwechsel
Ein Shell-Skript (switch-model.sh) ermöglicht den schnellen Wechsel zwischen den drei Modellen. Dabei lassen sich Kontextgröße (32K / 128K / 256K) und Denkmodus konfigurieren. Das Skript schreibt die systemd-Service-Datei neu und startet den Server automatisch durch.
Warum Q8 statt BF16?
Bei MoE-Modellen werden pro Token nur 3 Milliarden Parameter aktiviert. Q8 halbiert den Speicherbedarf pro Aktivierung gegenüber BF16. Weniger Daten durch den Speicherbus bedeuten mehr Token pro Sekunde. Der Qualitätsunterschied ist in Benchmarks messbar, im Alltag aber kaum relevant.
Fazit: Eigene KI, eigene Daten, eigene Regeln
3.000 € klingen nach einer Investition, aber dafür bekommen Sie einen KI-Assistenten, der rund um die Uhr verfügbar ist, keine laufenden Kosten verursacht und Ihre Daten dort lässt, wo sie hingehören: bei Ihnen.
Der ASUS GX10 mit der NVIDIA DGX Spark Technologie und einem effizienten Open-Source-Modell wie Qwen 3.5 zeigt, was heute möglich ist: 55 Wörter pro Sekunde, Kontextfenster für über 200 Seiten, und das alles auf einem Gerät, das auf den Schreibtisch passt. Lokale KI ist kein Kompromiss mehr, sie ist eine echte Alternative.
Nächste Schritte
- Lokale KI vs. Cloud-KI: Ausführlicher Vergleich beider Ansätze
- Ollama in Unternehmen: Der einfachere Einstieg in lokale KI auf bestehender Hardware
- KI-Tools im Überblick: Welche Software-Werkzeuge es für den Unternehmenseinsatz gibt
- Kontakt aufnehmen: Sie möchten wissen, ob lokale KI zu Ihrem Unternehmen passt? Wir beraten unabhängig und finden das passende Setup
KI-Berater & Trainer | Gründer von gewusst:KI
Wir helfen Unternehmen, KI sinnvoll einzusetzen. Praxisnah und herstellerunabhängig.
Verwandte Artikel
Lokale KI vs. Cloud-KI: Unterschiede, Kosten und Praxistipps
Cloud-KI oder lokale KI? Für Unternehmen in Deutschland ist die Entscheidung oft eine Frage der DSGVO. Wir zeigen Vor- und Nachteile mit konkreten Hardware-Empfehlungen und Kostenvergleich.
Ollama in Unternehmen: Lokale KI ohne Datenabfluss
Mit Ollama laufen KI-Modelle komplett lokal auf eigener Hardware. Kein Cloud-Zugriff, keine laufenden Kosten, keine Datenschutzprobleme. Was das konkret bedeutet und wie es funktioniert.