Local-First AI: LLM-Inferenz auf Proxmox mit AMD und 24 GB VRAM

Inhaltsverzeichnis

Ich betreibe meinen KI-Stack seit einer Weile lokal, und der Hauptgrund dafür ist simpel: Keine Daten gehen nach draußen, und ich zahle keine API-Gebühren. Dass die Antwortzeiten dabei auch noch akzeptabel sind, war anfangs fast eine Überraschung.

Die Hardware ist eine AMD Radeon RX 7900 XTX mit 24 GB VRAM, verbaut auf einem ASRock B650M Pro RS. Dazu ein Ryzen 9 7900 mit 12 Kernen und 32 GB DDR5-6000. Der VRAM ist der entscheidende Faktor: 24 GB reichen, um Modelle mit 22 Milliarden Parametern wie Codestral vollständig im Speicher zu halten. Sobald Teile des Modells in den System-RAM ausgelagert werden, bricht die Inferenzgeschwindigkeit deutlich ein.

Proxmox und PCIe-Passthrough
#

Das System läuft unter Proxmox VE, nicht auf Bare-Metal. Der Grund: Ich will KI-Experimente, Entwicklungsumgebungen und Storage-Dienste sauber voneinander trennen, ohne für jedes Szenario neu booten zu müssen.

Die Grafikkarte wird per PCIe-Passthrough direkt an eine dedizierte Linux-VM durchgereicht. Dafür muss IOMMU aktiviert sein. In /etc/default/grub:

GRUB_CMDLINE_LINUX_DEFAULT="quiet amd_iommu=on iommu=pt"

Danach werden die AMD-Grafiktreiber auf dem Host-System geblacklisted, damit Proxmox die Karte nicht selbst beansprucht. Die VM sieht die GPU dann so, als wäre keine Virtualisierungsschicht dazwischen.

Software-Stack: ROCm, Ollama, Open WebUI
#

AMD-GPUs brauchen ROCm statt CUDA, um als Compute-Beschleuniger zu funktionieren. ROCm ist das AMD-Gegenstück zu Nvidias CUDA-Ökosystem und inzwischen für die gängigen Deep-Learning-Frameworks gut unterstützt.

Als Inference-Engine läuft Ollama. Das Tool übernimmt das Laden und Verwalten der Modelle. Ein Modell starten:

ollama run codestral

Das Modell landet direkt im VRAM, weitere Konfiguration ist für den Anfang nicht notwendig.

Als Web-Interface läuft Open WebUI als Docker-Container. Es bietet eine Chat-Oberfläche, Modellwechsel per Klick und RAG (Retrieval-Augmented Generation): Lokale Dokumente, PDFs oder Markdown-Dateien lassen sich hochladen und indizieren, sodass das Modell beim Antworten darauf zugreifen kann. Die Daten verlassen dabei zu keinem Zeitpunkt das lokale System.

Fazit
#

Wer eine GPU mit ausreichend VRAM hat, kann lokale LLM-Inferenz ohne großen Aufwand betreiben. Proxmox als Virtualisierungsschicht macht den Stack flexibel, ohne bei der Performance viel zu kosten. ROCm hat in den letzten Monaten deutlich aufgeholt, AMD-Hardware ist damit eine realistische Alternative zu Nvidia für diesen Anwendungsfall.

Proxmox und PCIe-Passthrough#

Software-Stack: ROCm, Ollama, Open WebUI#

Fazit#

Proxmox und PCIe-Passthrough
#

Software-Stack: ROCm, Ollama, Open WebUI
#

Fazit
#