Die Zeiten, in denen performante Inferenz von Large Language Models (LLMs) exklusiv in den gigantischen Cloud-Rechenzentren von OpenAI oder Google stattfand, sind vorbei. Mit dem rasanten Einzug von hochoptimierten Open-Weights-Modellen wie Codestral (22B) oder Llama 3 verschiebt sich das Paradigma unaufhaltsam in Richtung Local-First AI.
Die Motivation dahinter ist klar: Absolute Datensicherheit, null Latenz durch externe API-Abfragen und die vollständige Kontrolle über den eigenen Tech-Stack.
In diesem Architektur-Review betrachten wir den Aufbau meines lokalen AI-Sovereignty-Nodes auf Basis von Proxmox VE und moderner AMD-Hardware.
Das Hardware-Fundament: Die ASRock/AMD-Workstation#
Um Modelle jenseits der 8-Milliarden-Parameter-Grenze flüssig und mit akzeptablen Tokens-per-Second ($Tk/s$) auszuführen, ist die Wahl der GPU entscheidend. Kernstück meiner dedizierten AI-Maschine ist eine AMD Radeon RX 7900 XTX mit satten 24 GB VRAM, verbaut auf einem kompakten, aber robusten ASRock B650M Pro RS Mainboard.
Flankiert wird das System von einem AMD Ryzen 9 7900 (12 Kerne / 24 Threads) und 32 GB schnellem DDR5-6000 RAM. Während der Hauptprozessor für die Virtualisierungsschicht und das IO-Handling zuständig ist, übernimmt die Radeon-GPU die mathematische Schwerstarbeit. Die 24 GB Videospeicher sind hierbei der kritische Faktor: Sie erlauben es, selbst 22B-Modelle wie Codestral vollständig im VRAM zu halten, ohne auf den drastisch langsameren System-RAM ausweichen zu müssen.
Die Virtualisierungsschicht: Proxmox VE & GPU Passthrough#
Die gesamte Workstation läuft unter Proxmox VE. Anstatt das Betriebssystem direkt auf die nackte Hardware (Bare-Metal) zu installieren, sorgt der Typ-1-Hypervisor für maximale Flexibilität. Das erlaubt es, KI-Experimente, Entwicklungs-Umgebungen und produktive Storage-Container strikt voneinander zu trennen.
Die größte technische Herausforderung bei einer Virtualisierung unter AMD ist das PCIe-Passthrough der Grafikkarte an die dedizierte Linux-VM, die später den KI-Stack beherbergt.
Vorbereitung des Hypervisors#
Damit Proxmox die GPU nicht selbst beansprucht, muss IOMMU in der Kernel-Bootzeile (/etc/default/grub) aktiviert werden:
GRUB_CMDLINE_LINUX_DEFAULT="quiet amd_iommu=on iommu=pt"Nach dem Blacklisten der AMD-Grafiktreiber (amdgpu) auf dem Host kann die RX 7900 XTX direkt an die Ziel-VM durchgereicht werden. Das Ergebnis: Die VM kommuniziert mit der Grafikkarte ohne Performance-Verlust, fast so, als gäbe es keine Virtualisierungsschicht dazwischen.
Verlinkungshinweis: Eine detaillierte Schritt-für-Schritt-Anleitung zur allgemeinen Konfiguration von LXC-Containern und Speicher-Pools unter Proxmox habe ich bereits in meinen Artikeln auf NGO-online bzw. im dedizierten Proxmox-Guide ausführlich beschrieben.
Der Software-Stack: Ollama, Open WebUI und ROCm Sobald die Linux-VM die GPU exklusiv kontrolliert, kommt der AMD-spezifische Compute-Stack zum Einsatz: ROCm (Radeon Open Compute). ROCm ist das AMD-Äquivalent zu Nvidias CUDA und sorgt dafür, dass Deep-Learning-Frameworks die Rechenkerne der Radeon-Karte direkt ansprechen können.
Inference-Engine: Ollama#
Als Herzstück für das Modell-Management dient Ollama. Ollama abstrahiert das Laden, Quantisieren und Ausführen der Modelle extrem elegant. Ein einfacher Befehl im Terminal genügt, um das Modell bereitzustellen:
ollama run codestralDank ROCm-Unterstützung schießt das Modell sofort in den VRAM der RX 7900 XTX. Das sorgt für eine blitzschnelle Inferenz, die kommerziellen Cloud-Diensten in nichts nachsteht.
Das Interface: Open WebUI#
Niemand möchte im Alltag komplexe Prompts ausschließlich in der nackten Shell tippen. Hier kommt Open WebUI ins Spiel. Als Docker-Container deployt, bietet es eine Benutzeroberfläche, die sich vor ChatGPT oder Google Gemini nicht verstecken muss.
Multi-Modell-Support: Nahtloser Wechsel zwischen Codestral (für Code-Generierung) und Llama 3 (für allgemeine Texte).
RAG (Retrieval-Augmented Generation): Lokale Dokumente (PDFs, Markdown-Notizen) können direkt hochgeladen werden. Open WebUI indiziert diese und füttert das LLM mit dem Kontext – perfekt, um das eigene, private Wissen zu durchsuchen, ohne dass jemals ein Byte die lokale Infrastruktur verlässt.
Fazit: Maximale Datensouveränität im eigenen Serverraum Das Setup beweist eindrucksvoll, dass Local-First AI im Jahr 2026 keine Utopie mehr ist. Mit der Kombination aus Proxmox für das clevere Ressourcen-Management und der brachialen VRAM-Power der AMD-Plattform lässt sich ein KI-Assistent realisieren, der absolut privat, extrem performant und komplett unabhängig von Internetverbindungen und Cloud-Preismodellen agiert.
Für Macintosh-Enthusiasten, die wie ich primär im Terminal via tmux arbeiten, schließt sich hier der Kreis: Lokale APIs ansteuern, Skripte optimieren und die Hoheit über die eigenen Daten behalten. Willkommen im Workspace der Zukunft.