ASUS Ascent GX10 im Praxistest: Lokale KI mit NVIDIA DGX Spark Technologie

Bewerbungsunterlagen auswerten, Produktionskennzahlen analysieren, interne Berichte zusammenfassen. KI kann das alles in Sekunden. Dafür brauchen Sie heute keinen Cloud-Dienst mehr. Ein kompakter Mini-PC auf dem Schreibtisch reicht.

Wir haben uns den ASUS Ascent GX10 ins Büro gestellt, einen Mini-PC auf Basis der NVIDIA DGX Spark Plattform, und nutzen ihn täglich für genau solche Aufgaben. Nach mehreren Wochen im Dauerbetrieb haben wir ein klares Bild von Geschwindigkeit, Kosten und Grenzen.

KI, die bei Ihnen bleibt

Es gibt Daten, bei denen Sie einfach ein besseres Gefühl haben, wenn sie das Unternehmen nicht verlassen. Bewerbungen, Gehaltsabrechnungen, Produktionsrezepturen, Vertragsentwürfe, solche Informationen bleiben besser im eigenen Betrieb. Mit einem lokalen KI-Rechner wie dem ASUS GX10 können Sie all diese Daten mit KI verarbeiten und behalten gleichzeitig die volle Kontrolle.

HR und Personal: Lebensläufe zusammenfassen, Mitarbeiterbefragungen auswerten, Zeugnisse analysieren
Produktion: Qualitätsprotokolle auswerten, Schichtberichte aufbereiten, Abweichungen erkennen
Finanzen: Quartalsberichte analysieren, Kalkulationen prüfen, Strategiepapiere zusammenfassen
Recht: Vertragsentwürfe durcharbeiten, Compliance-Bewertungen vorbereiten

Das alles passiert direkt auf Ihrem eigenen Gerät. Keine Internetverbindung nötig, keine externen Server beteiligt.

Einen ausführlichen Vergleich zwischen lokaler und cloudbasierter KI finden Sie in unserem Artikel Lokale KI vs. Cloud-KI.

Die Hardware: ASUS Ascent GX10

Der ASUS Ascent GX10 ist ein kompakter Mini-PC mit dem NVIDIA GB10 Grace Blackwell Chip, derselben Technologie, die auch im NVIDIA DGX Spark steckt. Die beiden Geräte sind technisch baugleich, der GX10 ist mit rund 3.800 € aber günstiger als das NVIDIA-Original. Auch Dell, Lenovo, MSI und andere Hersteller bieten Varianten mit dem gleichen NVIDIA DGX Spark Chip an. Sie haben also die freie Wahl beim Anbieter.

Was steckt drin?


Chip	NVIDIA GB10 Grace Blackwell (DGX Spark Plattform)
Arbeitsspeicher	128 GB (gemeinsam für CPU und GPU)
Speicher	1 TB SSD
Stromverbrauch	ca. 25 W im Leerlauf, ca. 170 W unter Last
Größe	15 × 15 × 5 cm
Preis	ca. 3.800 € brutto (1-TB-Variante)

Was die 128 GB Arbeitsspeicher ermöglichen

Das Besondere am GX10 ist der Arbeitsspeicher mit 128 GB, die sich CPU und GPU teilen. Bei einer herkömmlichen Grafikkarte (z. B. RTX 4090) stehen der KI nur 24 GB Grafikspeicher zur Verfügung. Der NVIDIA GB10 Chip im GX10 kann dagegen auf die vollen 128 GB zugreifen.

Dadurch passen auch große KI-Modelle komplett in den Speicher, und der Rechner kann mit Dokumenten arbeiten, die weit über 100 Seiten lang sind. Für Unternehmen, die regelmäßig mit langen Verträgen, Berichten oder Protokollen arbeiten, ist das der größte Vorteil.

Das KI-Modell: Qwen 3.5 mit Mixture-of-Experts

Auf dem GX10 läuft Qwen 3.5, ein Open-Source-Modell, das jeder frei nutzen darf (Apache-2.0-Lizenz). Das Modell hat 35 Milliarden Parameter, aktiviert pro Anfrage aber nur 3 Milliarden davon.

Ein Vergleich macht das anschaulich. Es funktioniert wie ein Unternehmen mit 256 Spezialisten, von denen bei jeder Frage nur die 8 relevantesten hinzugezogen werden. So bekommt man die Qualität eines großen Teams bei der Geschwindigkeit eines kleinen. In der KI-Welt heißt diese Technik Mixture of Experts. Sie ist der Grund, warum ein 35-Milliarden-Parameter-Modell auf der NVIDIA DGX Spark Hardware flüssig läuft.

Seit April 2026 gibt es mit Qwen 3.6 einen Nachfolger, der ebenfalls auf dem GB10-Chip läuft. Einen Überblick über die aktuellen lokalen Modelle geben wir im Artikel Lokale LLMs im Vergleich. Die hier genannten Messwerte stammen aus dem produktiven Einsatz mit Qwen 3.5.

Wie schnell ist das?

Rund 55 Wörter pro Sekunde, schneller, als Sie lesen können.

Das Modell gibt es in verschiedenen Varianten: eine hochpräzise Version (BF16, 65 GB) und eine komprimierte Version (Q8, 35 GB). Wir nutzen im Alltag die komprimierte Variante. Sie ist schneller und der Qualitätsunterschied ist im Praxiseinsatz gering.

Zusätzlich hat das Modell einen Denkmodus. Vor der Antwort kann es zunächst intern nachdenken, ähnlich wie ein Mensch, der erst überlegt, bevor er spricht. Das verbessert die Qualität bei komplexen Fragen, braucht aber mehr Zeit. Für einfache Aufgaben wie Zusammenfassungen schalten wir den Denkmodus ab. Dann wird es nochmal deutlich schneller.

Wofür wir den GX10 einsetzen

HR-Formulare und Bewerbungen

Bewerbungsunterlagen, Mitarbeiterbefragungen, Onboarding-Formulare. Mit dem lokalen Setup lassen sich Lebensläufe zusammenfassen, Fragebögen auswerten, Zeugnisformulierungen einordnen oder Gesprächsleitfäden vorbereiten. Alles bleibt auf dem eigenen Rechner, und Sie können die KI bedenkenlos mit vertraulichen Personaldaten arbeiten lassen.

Produktionsdaten

Ausschussquoten, Maschinenparameter, Qualitätskennzahlen, Rezepturen. In der Fertigung gibt es viele Daten, die Sie natürlich im Unternehmen behalten möchten. Das lokale Modell kann Produktionsberichte zusammenfassen, Abweichungen identifizieren, Schichtberichte aufbereiten und technische Dokumentationen durchsuchbar machen.

Vertrauliche Geschäftsdokumente

Verträge, Strategiepapiere, Finanzanalysen, Compliance-Prüfungen. Bei solchen Dokumenten ist es einfach gut zu wissen, dass die Daten das eigene Büro nicht verlassen. Sie können dem Modell ein 80-seitiges Dokument geben und fragen: “Fasse die drei wichtigsten Punkte zusammen.” Das funktioniert dank des großen Kontextfensters von 262.144 Token (256K).

Grenzen: Was Sie wissen sollten

Der ASUS GX10 bzw. die NVIDIA DGX Spark Plattform kann viel, aber nicht alles.

Bildgenerierung ist nicht seine Stärke, dafür gibt es spezialisierte Hardware
Die größten Cloud-Modelle haben bei hochkomplexem Reasoning noch einen Vorsprung
Bei vielen gleichzeitigen Nutzern sinkt die Geschwindigkeit. Für große Teams lohnt sich ein zweites Gerät
Modelltraining ist nicht vorgesehen. Der Rechner ist für die Nutzung fertiger Modelle gebaut

Warum llama.cpp und nicht Ollama?

Wer sich mit lokaler KI beschäftigt, stößt schnell auf Ollama. Es ist der einfachste Weg, KI-Modelle lokal zu starten, und wir empfehlen es regelmäßig als Einstieg (→ Unser Ollama-Guide).

Für den GX10 nutzen wir stattdessen llama.cpp direkt, die Inference-Engine, auf der Ollama aufbaut. Auf der noch jungen NVIDIA DGX Spark Hardware wollen wir volle Kontrolle über die Einstellungen und immer auf dem neuesten Stand sein. Optimierungen für den GB10-Chip landen zuerst in llama.cpp, Ollama zieht erst Wochen bis Monate später nach.

Für den Einstieg und auf “normaler” Hardware bleibt Ollama die bessere Wahl. Auf dem GX10 fährt man mit der direkten Variante besser.

Für Technik-Interessierte: Unser Setup im Detail

Dieser Abschnitt ist für alle, die einen ASUS GX10, NVIDIA DGX Spark oder ein anderes GB10-Gerät besitzen und sich für die technische Umsetzung interessieren.

Betriebssystem und Software

DGX OS (Ubuntu-basiert), speziell für den NVIDIA GB10 optimiert
CUDA 13.0, Treiberversion 580.126.09
llama.cpp aus dem Source gebaut (Tag b8182, 28.02.2026)

Installierte Modelle

Modell	Quantisierung	Dateigröße
Qwen 3.5 35B-A3B	BF16 (unquantisiert)	65 GB
Qwen 3.5 35B-A3B	Q8_0	35 GB
Qwen3-Coder-30B-A3B	Q8_0	31 GB

Alle drei sind Mixture-of-Experts-Modelle mit 3 Milliarden aktiven Parametern, ideal für den GB10-Chip.

Server-Konfiguration

Der llama-server läuft als systemd-Service und startet automatisch beim Booten:

llama-server \
    -m ~/models/Qwen_Qwen3.5-35B-A3B-Q8_0.gguf \
    -ngl 999 \
    -c 262144 \
    -np 1 \
    --no-mmap \
    --jinja \
    -fa 1 \
    --host 0.0.0.0 \
    --port 8080

Die wichtigsten Flags:

-ngl 999 = alle Layer auf die GPU, nichts auf der CPU
-c 262144 = 256K Token Kontextfenster
-fa 1 = Flash Attention für effizientere Speichernutzung
--jinja = Jinja2-Chat-Templates für korrekte Prompt-Formatierung
--host 0.0.0.0 = der Server ist im lokalen Netzwerk erreichbar

Modellwechsel

Ein Shell-Skript (switch-model.sh) ermöglicht den schnellen Wechsel zwischen den drei Modellen. Dabei lassen sich Kontextgröße (32K / 128K / 256K) und Denkmodus konfigurieren. Das Skript schreibt die systemd-Service-Datei neu und startet den Server automatisch durch.

Warum Q8 statt BF16?

Bei MoE-Modellen werden pro Token nur 3 Milliarden Parameter aktiviert. Q8 halbiert den Speicherbedarf pro Aktivierung gegenüber BF16. Weniger Daten durch den Speicherbus bedeuten mehr Token pro Sekunde. Der Qualitätsunterschied ist in Benchmarks messbar, im Alltag aber kaum relevant.

Fazit: KI im eigenen Unternehmen

3.800 € klingen nach einer Investition, aber dafür bekommen Sie einen KI-Assistenten ohne laufende Kosten, der jederzeit bereitsteht und Ihre Daten im eigenen Unternehmen behält.

Der ASUS GX10 mit der NVIDIA DGX Spark Technologie und einem effizienten Open-Source-Modell wie Qwen 3.5 zeigt, was heute möglich ist. 55 Wörter pro Sekunde, ein Kontextfenster für über 200 Seiten, und das alles auf einem Gerät, das auf den Schreibtisch passt. Lokale KI ist damit eine echte Alternative zur Cloud geworden.

Nächste Schritte

Lokale KI vs. Cloud-KI: Ausführlicher Vergleich beider Ansätze
Ollama in Unternehmen: Der einfachere Einstieg in lokale KI auf bestehender Hardware
KI-Tools im Überblick: Welche Software-Werkzeuge es für den Unternehmenseinsatz gibt
Kontakt aufnehmen: Sie möchten wissen, ob lokale KI zu Ihrem Unternehmen passt? Wir beraten unabhängig und finden das passende Setup

Wir zeigen Ihnen, wo KI in Ihrem Unternehmen wirtschaftlich sinnvoll ist.

Workshops und Vorträge, die Teams KI im Alltag sicher machen.

KI-Lösungen nach Anwendungsdomäne, unabhängig von der Technologie.

Unsere KI-Plattform für Unternehmen. Modular, lokal, DSGVO-konform.