CPU · AMD
AMD EPYC Genoa als Host-Plattform für KI-Systeme
EPYC Genoa mit 32 Kernen, PCIe 5.0 und DDR5 ECC: Warum diese CPU-Plattform die Basis für ernsthafte KI-Infrastruktur bildet.
Kompatibilität
- 4× NVIDIA RTX PRO 6000 Blackwell via PCIe 5.0 x16
- 192 GB DDR5 ECC (12-Kanal)
- NVMe RAID über PCIe 5.0
- IPMI/BMC (AST2600) Remote-Management
Die GPU ist das Aushängeschild jedes KI-Servers. Aber sie ist nicht das Fundament. Das ist die CPU-Plattform, und eine schwache Basis kostet mehr Leistung, als ein GPU-Upgrade je zurückgewinnen kann.
Im BRW-B01 übernimmt ein AMD EPYC Genoa mit 32 Kernen diese Rolle. Keine Kompromissarchitektur, sondern eine echte Server-CPU, die für den Dauerbetrieb mit vier High-End-GPUs ausgelegt ist.
Warum die CPU bei KI-Workloads entscheidend ist
Der verbreitete Irrtum: KI-Systeme brauchen nur möglichst viel GPU. In der Praxis ist die CPU an mehreren kritischen Punkten direkt in den Datenpfad eingebunden.
Datenvorbereitung: Bilder skalieren, Text tokenisieren, Batches zusammenstellen. Das läuft auf der CPU, bevor die GPU auch nur eine Berechnung startet. Ein 32-Kern-Prozessor kann mehrere Preprocessing-Pipelines parallel betreiben, ohne dass eine Karte auf Daten wartet.
API-Serving und Orchestrierung: Wer mehrere Nutzer oder Dienste bedient, braucht einen Request-Router, der Last verteilt, Sessions hält und Antworten zurückschickt. Frameworks wie vLLM oder TensorRT-LLM laufen mit ihrer Management-Schicht auf der CPU.
Vektordatenbanken: RAG-Systeme (Retrieval-Augmented Generation) betreiben oft eine lokale Vektordatenbank auf derselben Maschine. Qdrant, Weaviate oder pgvector sind CPU- und RAM-intensiv. Sie profitieren direkt von hoher Kernzahl und großem, schnellem Speicher.
PCIe-Lane-Management: Vier GPUs, NVMe-RAID, zwei 10-GbE-Ports. All das hängt am PCIe-Fabric der CPU. Eine Plattform mit zu wenig Lanes zwingt zu Kompromissen: geteilte Slots, reduzierte Bandbreite, potenzielle Engpässe.
AMD EPYC Genoa: technische Eckdaten
EPYC Genoa ist die vierte Generation der EPYC-Prozessoren von AMD, gefertigt in 5-nm-Technologie (TSMC N5). Die Architektur ist konsequent auf maximale IO-Kapazität und Speicherbandbreite ausgelegt. Genau das, was Multi-GPU-Server brauchen.
Die relevanten Eckdaten im BRW-B01:
- 32 Kerne / 64 Threads, für paralleles Preprocessing, Serving und Monitoring
- PCIe 5.0 mit bis zu 128 Lanes, voller x16-Anschluss für alle vier GPUs
- 12-Kanal DDR5-Speicher als Basis für die 460,8 GB/s RAM-Bandbreite
- 192 GB DDR5 ECC, großzügig dimensioniert für Modell-Gewichte und Systemdienste
- Zen 4 Mikroarchitektur mit hoher IPC, AVX-512, nativen RDNA-Instruktionen
Die 12 Speicherkanäle von EPYC Genoa sind kein Zufallsmerkmal. Sie existieren, weil Server-Workloads (anders als Desktop-Anwendungen) sehr breite Speicherzugriffe haben. Je mehr Kanäle, desto mehr Daten können parallel gelesen und geschrieben werden.
PCIe 5.0 und GPU-Anbindung
Der BRW-B01 verbindet alle vier NVIDIA RTX PRO 6000 Blackwell GPUs über PCIe 5.0 x16 mit dem Prozessor. Das ist keine Sparmaßnahme, kein geteilter Slot.
Was das in Zahlen bedeutet:
- PCIe 4.0 x16: 32 GB/s bidirektional
- PCIe 5.0 x16: 64 GB/s bidirektional, doppelte Bandbreite
- Vier Karten zusammen: bis zu 256 GB/s verfügbare Bus-Bandbreite
Der Unterschied wird sichtbar, sobald große Tensoren zwischen CPU-Speicher und GPU-VRAM übertragen werden. Etwa bei Modellen, die nicht vollständig in den VRAM einer Karte passen, oder bei heterogenen Pipelines, die CPU und GPU eng kombinieren.
PCIe 4.0 ist bei diesen Szenarien oft der erste Flaschenhals. PCIe 5.0 schiebt diesen Engpass deutlich weiter nach hinten oder eliminiert ihn.
Dazu kommt: Die 4-TB-NVMe-RAID-Konfiguration im BRW-B01 erreicht 59,3 GB/s Lesebandbreite. Auch das läuft über PCIe 5.0. Ohne Lanes-Mangel funktioniert Storage und GPU-Anbindung ohne gegenseitige Beeinträchtigung.
192 GB DDR5 ECC: Arbeitsspeicher für Dauerbetrieb
192 GB klingt nach viel. Im KI-Serverbetrieb ist das solide dimensioniert, aber nicht überdimensioniert.
Typische Speicherbelegung:
- Betriebssystem, Systemdienste, Monitoring: ~8–16 GB
- Inference-Framework (vLLM, TensorRT): 16–32 GB
- Modell-Gewichte im CPU-RAM (für GPU-Transfers): 32–80 GB je nach Modell
- Vektordatenbank (RAG): 16–64 GB je nach Index-Größe
- Puffer für parallele Requests: 8–24 GB
Gerade bei RAG-Setups mit großen Embedding-Indizes läuft man mit weniger als 128 GB schnell in Engpässe. 192 GB geben Spielraum für produktive Workloads, ohne ständig gegen Limits zu arbeiten.
ECC ist nicht optional. Für Systeme im 24/7-Betrieb ohne ECC ist es eine Frage der Zeit, bis ein Bit-Flip einen Fehler erzeugt. In kritischen Produktivsystemen (und das sind KI-Server im Unternehmenseinsatz) ist ECC-Speicher Standard, nicht Luxus.
Die 460,8 GB/s RAM-Bandbreite des 12-Kanal-DDR5-Interfaces stellt sicher, dass der Arbeitsspeicher nicht zum Flaschenhals wird, wenn mehrere Prozesse gleichzeitig auf große Datensätze zugreifen.
Die CPU als Orchestrator: typische Aufgaben
In einem laufenden KI-System hat die CPU keine ruhigen Momente. Folgende Prozesse laufen typischerweise parallel:
Preprocessing-Pipeline:
- Tokenisierung eingehender Prompts (mehrere Threads)
- Batching und Padding für optimale GPU-Auslastung
- Dekodierung und Nachbearbeitung der Ausgaben
Inference-Serving:
- Request-Queue-Management mit Prioritätssteuerung
- KV-Cache-Management zwischen Requests
- Antwort-Streaming über HTTP/gRPC
System-Monitoring:
- GPU-Temperatur, VRAM-Auslastung, PCIe-Bandbreite
- Alerting und Logging
- Automatisches Throttling bei thermischen Ereignissen
Storage-IO:
- Checkpoint-Laden beim Start (>100 GB über NVMe)
- Log-Rotation und Telemetrie-Speicherung
Mit 32 Kernen kann der EPYC Genoa all das parallel betreiben, ohne dass sich die Prozesse gegenseitig blockieren. Ein 8-Kern-Consumer-Prozessor würde an dieser Stelle zum Engpass. Nicht wegen fehlender Rechenleistung, sondern wegen zu wenig paralleler Kapazität.
Skalierbarkeit und Zukunftssicherheit
Plattformentscheidungen wirken lange. Wer heute in eine solide CPU-Basis investiert, schützt sich vor teuren Nachrüstungen in zwei Jahren.
EPYC Genoa bietet:
- Ausreichend Lanes für künftige GPU-Generationen (PCIe 5.0 bleibt für die nächsten Jahre relevant)
- Speicher-Headroom: 192 GB sind gut, mehr ist bei Bedarf möglich
- Ökosystem-Stabilität: AMD EPYC ist in Rechenzentren weltweit verbreitet, Software-Stack und Treiber-Support sind reif
Ein System, das heute 2 GPUs nutzt und auf 4 skaliert werden soll, muss von Anfang an mit einer Plattform ausgestattet sein, die das unterstützt. Nachträglich die CPU-Plattform zu wechseln bedeutet oft: Mainboard, CPU, Speicher, Gehäuse. Ein kompletter Neubau.
Der BRW-B01 ist von Anfang an für volle GPU-Bestückung ausgelegt. Keine späteren Kompromisse.
IPMI/BMC: Remote-Management im Rechenzentrum
Wer Server im Rechenzentrum oder in einem Remote-Colocation-Standort betreibt, braucht Management-Zugriff unabhängig vom Betriebssystem. Der BRW-B01 setzt dafür auf den AST2600 BMC (Baseboard Management Controller).
Was IPMI/BMC in der Praxis bedeutet:
- Remote Power Control: Server einschalten, rebooten, hart ausschalten, ohne vor Ort zu sein
- KVM over IP: Vollständiger Bildschirm- und Tastaturzugriff, auch ins BIOS
- Sensor-Monitoring: CPU-Temperatur, Lüfterdrehzahl, Spannungen, Speicherfehler, alles in Echtzeit
- Serial over LAN: Konsolen-Zugriff für Debugging auf Kernel-Ebene
- Event-Logging: Vollständiges Hardware-Ereignislog für Fehleranalyse
Für Managed-Service-Provider, die BRW-B01-Systeme für Kunden betreiben, oder für Unternehmen mit Remote-Infrastruktur ist das kein Komfort-Feature. Es ist eine Voraussetzung für professionellen Betrieb.
Der AST2600 läuft auf einer eigenen Management-Netzwerkverbindung und ist vom Hauptsystem vollständig isoliert. Auch wenn der Server abgestürzt ist oder das Betriebssystem nicht mehr reagiert, bleibt der BMC erreichbar.
Empfehlung von Badische Rechenwerke
Der EPYC Genoa mit 32 Kernen im BRW-B01 ist kein Zufallsprodukt einer Konfigurationsmatrix. Er ist das Ergebnis einer klaren Anforderungsanalyse: Welche CPU hält vier High-End-GPUs zuverlässig ausgelastet, ohne selbst zum Engpass zu werden?
Für wen der BRW-B01 die richtige Wahl ist:
- Unternehmen, die lokale KI-Infrastruktur aufbauen und Cloud-Abhängigkeiten reduzieren wollen
- Teams, die parallel mehrere Modelle oder Nutzergruppen bedienen müssen
- Anwendungsfälle mit sensiblen Daten, die das System aus regulatorischen Gründen intern betreiben müssen
- Entwickler und IT-Teams, die Modelle evaluieren, finetunen und deployen, ohne Cloud-Kosten
Das Gesamtsystem ist ab 75.000 € zzgl. MwSt. verfügbar. Wir beraten Sie gern zu konkreten Workloads und Konfigurationen.
FAQ
Warum brauche ich eine Server-CPU wie EPYC für KI, wenn die GPUs die Arbeit erledigen?
GPUs berechnen, die CPU orchestriert. Datenvorbereitung, Tokenisierung, API-Serving, Scheduling, Monitoring und Storage-IO laufen auf der CPU. Ohne ausreichend Kerne, RAM-Bandbreite und PCIe-Lanes wird die CPU zum Flaschenhals, die GPUs warten auf Daten.
Was bedeutet PCIe 5.0 x16 für jede GPU in der Praxis?
PCIe 5.0 x16 liefert 64 GB/s bidirektionale Bandbreite pro Slot, doppelt so viel wie PCIe 4.0. Bei 4 Karten im BRW-B01 stehen 256 GB/s gesamt zur Verfügung. Das eliminiert den Bus als Engpass bei großen Modell-Transfers und heterogenen Workloads.
Wie viele PCIe-Lanes stellt EPYC Genoa bereit?
EPYC Genoa bietet bis zu 128 PCIe 5.0 Lanes pro Prozessor. Das reicht für vier GPUs mit vollem x16-Anschluss plus NVMe-Storage und Netzwerk, ohne Kompromisse bei der Bandbreite.
Warum ist ECC-Speicher für KI-Server zwingend?
KI-Modelle laufen im Dauerbetrieb über Wochen. Ein einzelner Bit-Flip im RAM kann stille Berechnungsfehler erzeugen, die sich erst spät im Output zeigen oder das System zum Absturz bringen. ECC erkennt und korrigiert solche Fehler automatisch.
Reichen 192 GB RAM für große Sprachmodelle?
Für Modelle bis etwa 70 Milliarden Parameter im INT8-Format reicht das als Host-Speicher komfortabel. Die GPUs des BRW-B01 bringen zusätzlich 96 GB VRAM mit. Für sehr große Modelle (>100B Parameter) im Float16-Betrieb empfiehlt sich ein Multi-Node-Setup.
Wie funktioniert Remote-Management über IPMI/BMC?
Der AST2600 BMC läuft unabhängig vom Hauptsystem auf einer eigenen Management-Schiene. Admins können den Server aus der Ferne einschalten, KVM-Zugriff auf den Bildschirm erhalten, Temperaturen und Spannungen überwachen und das System bei Bedarf hart rebooten, ohne physischen Zugang zum Rechenzentrum.
Ist Luftkühlung für diesen Server ausreichend?
Der BRW-B01 setzt auf 8 Hochleistungslüfter, die sorgfältig auf die thermische Last des Systems ausgelegt sind. Für Rechenzentrumsumgebungen mit kontrollierter Raumtemperatur funktioniert das zuverlässig. Liquid Cooling ist bei diesem System nicht erforderlich.
Welche Workloads profitieren besonders von der EPYC-Plattform?
LLM-Inferenz mit parallelen Nutzern, RAG-Systeme mit lokaler Vektordatenbank, Multimodal-Pipelines mit hohem Datendurchsatz und kontinuierliches Fine-Tuning profitieren alle direkt. Überall dort, wo CPU und GPU eng zusammenarbeiten müssen, zahlt sich die breite EPYC-Plattform aus.