BRW Badische Rechenwerke

GPU · NVIDIA

NVIDIA RTX PRO 6000 Blackwell für lokale KI-Inferenz

96 GB GDDR7 ECC, zertifizierte Treiber, Workstation-Support: Warum die RTX PRO 6000 Blackwell die richtige GPU für produktive On-Prem-KI ist.

Preisindikation

ab 75.000 € für 4-GPU-System

Zuletzt aktualisiert

18.2.2026

Kategorie

GPU

Kompatibilität

  • PCIe 5.0 x16 Full Fabric
  • AMD EPYC Genoa Plattform
  • ECC DDR5 Host-Speicher
  • 5U Rackmount-Gehäuse

Wer im Unternehmen ernsthafte KI-Inferenz betreiben will, braucht kein Cloud-Abo, sondern die richtige Hardware im eigenen Rack. Die NVIDIA RTX PRO 6000 Blackwell ist die GPU, auf die wir beim BRW-B01 setzen: 96 GB GDDR7 ECC, Workstation-Zertifizierung und ein Support-Lifecycle, der zu Unternehmens-IT passt.

Technische Spezifikationen der RTX PRO 6000 Blackwell

Die Karte basiert auf NVIDIAs Blackwell-Architektur, derselben Generation, die auch NVIDIAs aktuelle Datacenter-GPUs antreibt. Im Workstation-Segment ist die RTX PRO 6000 das Topmodell.

Relevante Eckdaten im BRW-B01:

  • GPU-Speicher: 96 GB GDDR7 ECC pro Karte (384 GB gesamt über 4 GPUs)
  • Speicherbandbreite: 7.168 GB/s gesamt (Summe aller vier GPUs)
  • FP16-Leistung: 3.086 TFLOPS mit FP32-Akkumulation (gesamt)
  • GPU-Anbindung: PCIe 5.0 x16 Full Fabric
  • Anzahl GPUs im System: 4×

Die Speicherbandbreite ist bei LLM-Inferenz oft der eigentliche Engpass, nicht die Rechenleistung. 7,1 TB/s Gesamtbandbreite ermöglichen hohen Token-Durchsatz ohne künstliche Drosselung.

Warum die RTX PRO 6000 statt Consumer-GPUs

Die RTX PRO 6000 ist keine aufgebohrte Spielekarte. Sie ist eine professionelle Workstation-GPU mit Eigenschaften, die im Unternehmenskontext zählen:

  • ECC-Speicher verhindert stille Datenfehler. Bei langen Inferenz-Läufen und Model-Weights mit hoher Präzisionsanforderung ist das kein Nice-to-have.
  • ISV-zertifizierte Treiber werden separat getestet und freigegeben. Weniger Überraschungen bei OS-Updates oder CUDA-Versionen.
  • Längerer Support-Lifecycle: NVIDIA bietet für Workstation-Produkte längere Treiber-Support-Zyklen. Relevant, wenn Systeme 4–6 Jahre im Betrieb bleiben sollen.
  • Die Firmware ist auf Dauerbetrieb ausgelegt. Consumer-Karten sind auf Burst-Last optimiert. Die PRO-Linie hält durchgehend hohe Auslastung aus, thermisch und elektrisch.
  • Compliance und Beschaffung: In vielen Unternehmen und Behörden sind zertifizierte Workstation-Komponenten Pflicht. Consumer-Hardware fällt durch entsprechende Rahmenverträge.

Typische KI-Workloads

Mit 4× RTX PRO 6000 und 384 GB GPU-Speicher deckt das BRW-B01 ein breites Spektrum ab:

LLM-Inferenz ist der häufigste Einsatzzweck. Llama-3.1-Modelle, Mistral, Qwen oder DeepSeek laufen über Frameworks wie Ollama, vLLM oder llama.cpp direkt auf der Hardware. Kein API-Call nach außen, kein Datenverlust.

RAG-Pipelines kombinieren LLM-Inferenz mit Vektor-Datenbanken (z. B. Weaviate, Qdrant). Weil CPU und GPU auf derselben Maschine sitzen, entfällt der Netzwerk-Overhead zwischen Embedding-Berechnung und Retrieval.

Bildgenerierung mit Stable Diffusion XL oder Flux.1 profitiert massiv von großem VRAM. Hochauflösende Batches, ControlNet-Stacks oder Multi-LoRA-Setups laufen ohne Kompromisse.

Code-Assistenten wie ein selbst gehosteter GitHub Copilot-Ersatz (z. B. auf Basis von Qwen2.5-Coder oder Deepseek-Coder-V2) lassen sich mit niedrigen Latenzen für ganze Entwicklungsteams betreiben.

Fine-Tuning auf Basis von LoRA oder QLoRA ist für Modelle bis ca. 70B im 4-Bit-Bereich realistisch. Wer domänenspezifische Sprachkompetenz in bestehende Modelle einbrennen will, hat dafür genug Spielraum.

VRAM: der entscheidende Faktor

VRAM ist bei LLM-Inferenz kein Luxus, er ist die Kapazitätsgrenze. Ein Modell, das nicht vollständig in den GPU-Speicher passt, muss auf CPU-RAM ausweichen (Offloading), mit drastisch niedrigerem Durchsatz.

96 GB ECC GDDR7 pro GPU bedeutet konkret:

ModellFormatPasst in eine GPU?
Llama 3.1 8BFP16Ja
Llama 3.1 70BQ4_K_MJa
Llama 3.1 405BQ4_K_MNein (braucht ~3 GPUs)
Mistral Large 2 (123B)Q4_K_MNein (2–3 GPUs)
Qwen2.5 72BFP16Ja
Flux.1 DevBF16Ja

Mit vier Karten steht ausreichend Kapazität bereit, um auch die größten öffentlich verfügbaren Modelle ohne Quantisierungs-Kompromisse zu laden. Oder mehrere Modelle parallel zu betreiben und per Router zu verteilen.

Quantisierung ist kein Problem, sondern ein Werkzeug. Q8 oder Q4_K_M reduziert den Speicherbedarf erheblich bei kaum messbarem Qualitätsverlust. Mit 384 GB Gesamtkapazität kann man großzügiger quantisieren als auf einem System mit 2× 24 GB.

Multi-GPU-Skalierung im BRW-B01

Vier GPUs bedeuten nicht zwingend vierfache Leistung. Es kommt auf den Workload an.

Tensor Parallelism verteilt ein einzelnes Modell über mehrere GPUs. Frameworks wie vLLM unterstützen das nativ. Für Modelle, die größer sind als eine GPU-Kapazität, ist das die Standardstrategie.

Modell-Parallelism betreibt verschiedene Modelle gleichzeitig auf verschiedenen GPUs. Ein Team nutzt Llama 3.1 70B, während eine andere Pipeline Flux.1 auf separaten Karten rendert. Das BRW-B01 unterstützt beide Betriebsarten.

Die PCIe 5.0 x16 Full Fabric-Anbindung sorgt für ausreichend Bandbreite zwischen den GPUs über den AMD EPYC Host. Für Inferenz-Workloads (im Gegensatz zu eng synchronisierten Training-Jobs) ist das kein Flaschenhals.

Ab wann macht Multi-GPU Sinn? Sobald ein Modell nicht in eine Karte passt, sobald mehrere Teams gleichzeitig auf dasselbe System zugreifen oder sobald Latenzanforderungen parallele Request-Verarbeitung erfordern.

Vergleich: Cloud-GPU vs. On-Premise

Cloud-GPU-Angebote klingen beim ersten Blick günstig. Die Rechnung ändert sich bei Dauernutzung schnell.

Typische Cloud-Kosten:

  • A100 80GB: ca. 2,50–4,00 €/Stunde bei Reserved Instances
  • H100 80GB: ca. 4,00–8,00 €/Stunde
  • Burst-Tarife ohne Reservierung: deutlich höher

Ein System mit 4× H100 kostet cloud-seitig bei 8h/Tag und 250 Arbeitstagen schnell 40.000–65.000 € pro Jahr, ohne Netzwerk-Egress, ohne Daten-Management, ohne API-Overhead.

Das BRW-B01 kostet 75.000 € einmalig. Amortisation je nach Auslastung: 18–30 Monate.

Daneben zählen Faktoren, die sich nicht direkt in Euro ausdrücken lassen:

  • Datensouveränität: Modell-Inputs und -Outputs verlassen das Unternehmensnetz nicht. Relevant für Rechtsabteilungen, DSGVO-Compliance und Kunden mit NDA-Anforderungen.
  • Latenz: Kein Netzwerk-Roundtrip zur Cloud. Besonders bei interaktiven Anwendungen oder Streaming-Responses spürbar.
  • Planbarkeit: Feste Kosten statt schwankende Cloud-Rechnungen. Kein Vendor Lock-in, kein API-Limit, keine Modellwechsel ohne Vorankündigung.

Kühlung und Dauerbetrieb

Das BRW-B01 ist ein 5U Rackmount-System mit aktiver Luftkühlung durch 8 Hochleistungslüfter. Das Kühlkonzept ist auf Vollast im Dauerbetrieb ausgelegt, nicht auf ruhige Büroumgebungen.

Luftkühlung hat im Rack-Kontext klare Vorteile: kein Kühlmittelkreislauf, keine Pumpen, keine Schläuche. Damit weniger potenzielle Ausfallpunkte. In gut dimensionierten Rechenzentren oder Serverschränken mit ausreichend Kaltluft-Zuführung ist das die zuverlässigere Wahl.

Die Lüftersteuerung reagiert auf GPU-Last und -Temperatur. Bei moderater Inferenz-Last laufen die Lüfter deutlich leiser als bei Volllast. Für typische Büroumgebungen ist ein abgeschlossener Serverschrank oder ein separater Serverraum empfehlenswert.

Thermisches Throttling (das automatische Herunterregeln der GPU-Frequenz bei Überhitzung) tritt bei korrekt dimensionierter Rack-Kühlung nicht auf. Das ist für reproduzierbare Inferenz-Latenzen relevant.

Empfehlung von Badische Rechenwerke

Die RTX PRO 6000 Blackwell ist unsere klare Wahl für Unternehmen, die lokale KI ernsthaft betreiben wollen. Nicht als Pilotprojekt, sondern als produktive Infrastruktur.

Warum nicht die günstigste verfügbare GPU? Weil 96 GB ECC-Speicher, Workstation-Zertifizierung und langfristiger Treiber-Support über die Totalkosten hinweg wirtschaftlicher sind als häufige Austauschzyklen oder ungeplante Treiber-Probleme.

Das BRW-B01 kombiniert vier dieser GPUs mit einem AMD EPYC Genoa Host, 192 GB DDR5 ECC RAM und 5U Rackmount-Formfaktor. Fertig konfiguriert, getestet und einsatzbereit.

Wer jetzt über lokale KI-Infrastruktur nachdenkt: Wir beraten gerne konkret zu Workload-Anforderungen, Modellauswahl und Betriebskonzept.

Zum BRW-B01 System

FAQ

Was unterscheidet die RTX PRO 6000 Blackwell von einer Gaming-GPU?

Die RTX PRO 6000 ist eine professionelle Workstation-GPU mit ECC-Speicher, zertifizierten ISV-Treibern, erweitertem Support-Lifecycle und für 24/7-Dauerbetrieb ausgelegter Firmware. Consumer-Karten bieten das nicht.

Wie viel VRAM hat die NVIDIA RTX PRO 6000 Blackwell?

96 GB GDDR7 ECC pro GPU. Im BRW-B01 mit vier Karten stehen insgesamt 384 GB GPU-Speicher zur Verfügung.

Welche LLMs laufen mit 96 GB VRAM nativ?

Llama 3.1 405B (quantisiert), Mistral Large, Qwen 72B, DeepSeek 67B und ähnliche Modelle lassen sich vollständig im GPU-Speicher halten, ohne Offloading auf Host-RAM.

Wie hoch ist die FP16-Leistung des BRW-B01?

3.086 TFLOPS FP16 mit FP32-Akkumulation über alle vier GPUs. Das reicht für produktive Inferenz und kleinere Fine-Tuning-Jobs.

Unterstützt die RTX PRO 6000 NVLink oder Multi-GPU-Interconnect?

Im BRW-B01 sind die vier GPUs über PCIe 5.0 x16 Full Fabric angebunden. Für Inferenz-Workloads ist das ausreichend; eng gekoppeltes Training-Scaling über NVLink ist mit dieser Karte nicht vorgesehen.

Ist die Karte für Fine-Tuning geeignet?

Für LoRA/QLoRA-Adapter-Training auf Modellen bis ca. 70B im 4-Bit-Bereich ja. Vollständiges Pre-Training großer Modelle ist aufgrund der PCIe-Kopplung eher nichts für dieses System.

Wie unterscheidet sich On-Premise von Cloud-GPU im Kostenvergleich?

Cloud-GPUs kosten bei Dauerbetrieb 8–15 € pro Stunde und GPU. On-Prem-Hardware amortisiert sich bei mittlerem Lastprofil typischerweise in 18–30 Monaten, bei gleichzeitiger Datensouveränität.

Welches Kühlkonzept nutzt das BRW-B01?

Aktive Luftkühlung mit 8 Hochleistungslüftern in einem 5U Rackmount-Gehäuse. Das System ist für 24/7-Dauerbetrieb ausgelegt und thermisch auf Vollast dimensioniert.