Storage · Samsung + Kioxia
NVMe-Speicher für KI-Modelle und Datasets
Wie das 4-TB-NVMe-RAID im BRW-B01 mit 59,3 GB/s Lesebandbreite Ladezeiten minimiert und KI-Workloads zuverlässig versorgt.
Kompatibilität
- PCIe 5.0 NVMe (M.2 und U.2)
- Ubuntu 24.04 LTS mit md-RAID oder ZFS
- Supermicro 5U Backplane
- NVIDIA RTX PRO 6000 Blackwell (Direct GPU Load)
Der Prozessor rechnet. Die GPU rechnet. Aber wenn der Speicher nicht nachliefert, warten beide.
Storage ist der am häufigsten unterschätzte Engpass in KI-Infrastruktur. Wer ein 70-Milliarden-Parameter-Modell betreibt, braucht nicht nur GPU-VRAM. Er braucht ein System, das das Modell überhaupt erst schnell genug in den Speicher bringt. Genau das leistet das NVMe-System im BRW-B01.
Warum Speicher bei KI-Workloads entscheidend ist
KI-Betrieb umfasst mehr als Inferenz. Vier Phasen belasten den Speicher unterschiedlich stark:
- Model Loading: Beim Start eines Dienstes muss das komplette Modell von Disk in RAM und VRAM geladen werden. Bei großen Modellen entscheidet die Lesebandbreite über Minuten oder Sekunden Wartezeit.
- Dataset-Zugriff: Fine-Tuning und Evaluierung lesen Trainingsdaten sequentiell mit hohem Durchsatz. Langsamer Speicher bremst den gesamten Trainingslauf.
- Checkpoint-Writes: Während des Trainings werden regelmäßig Modell-Checkpoints geschrieben, oft mehrere Gigabyte in einem Zug. Schreibbandbreite ist hier genauso kritisch wie Lesebandbreite.
- RAG und Vektordatenbanken: Retrieval-Augmented Generation greift bei jeder Anfrage auf einen Vektorindex zu. Hohe IOPS (Input/Output-Operationen pro Sekunde) sind hier entscheidend, nicht nur sequentieller Durchsatz.
Wer auf langsamen SATA-SSDs oder gar HDDs arbeitet, verliert produktive Zeit und Nerven.
4 TB NVMe RAID: die Speicherarchitektur im BRW-B01
Das BRW-B01 kombiniert zwei separate Speicher-Schichten mit klar getrennten Aufgaben.
Das 4-TB-NVMe-RAID ist der Arbeitsspeicher des Systems für Modelle, Datasets und Arbeitsdaten. Mehrere NVMe-Laufwerke werden im RAID-Verbund betrieben, das erhöht sowohl Bandbreite als auch Ausfallsicherheit. Kein einzelnes Laufwerk begrenzt den Durchsatz.
Die 1-TB-Boot-SSD ist vollständig vom RAID isoliert. Ubuntu 24.04 LTS, Systemdienste, Logs und temporäre Dateien liegen hier. Das RAID bleibt davon unberührt.
4 TB sind bewusst gewählt: Ein Betriebsteam, das mit mehreren Modellen parallel arbeitet (verschiedene Versionen, verschiedene Größen, verschiedene Quantisierungsstufen) füllt kleinere Systeme schneller als erwartet. 4 TB geben ausreichend Puffer, ohne ständige Archivierungsarbeit.
59,3 GB/s Lesebandbreite: was das in der Praxis bedeutet
59,3 Gigabyte pro Sekunde sequentielle Lesebandbreite ist kein Marketing-Wert. Es ist eine praktisch messbare Größe mit direkten Auswirkungen auf den Arbeitsalltag.
Zum Vergleich:
- Klassische HDD: 100–200 MB/s (0,1–0,2 GB/s)
- SATA SSD: ~550 MB/s (0,55 GB/s)
- Einzelne PCIe 4.0 NVMe: bis ~7 GB/s
- BRW-B01 NVMe RAID (PCIe 5.0): 59,3 GB/s
Konkret bedeutet das:
- Ein quantisiertes Llama 3 70B (~40 GB auf Disk) lädt in unter einer Sekunde vom RAID in den Systemspeicher.
- Ein Stable-Diffusion-XL-Modell (~6 GB) ist in Millisekunden bereit.
- Checkpoint-Writes bei Training blockieren den Betrieb nicht spürbar.
- Kaltstarts von Inferenzdiensten dauern Sekunden, nicht Minuten.
Das ist kein akademischer Unterschied. Teams, die täglich Modelle wechseln oder mehrere Dienste verwalten, merken den Unterschied nach wenigen Stunden.
Boot-SSD und Systemtrennung
Die separate 1-TB-Boot-SSD ist keine Sparmaßnahme. Sie ist eine Architekturentscheidung.
Betriebssystem-Schreiblast ist kontinuierlich: Logs, Paketmanager-Cache, Swap, Journal. All das läuft permanent. Würde diese Last auf dem Modell-RAID landen, entstünden Schreibkonflikte, die die sequentielle Read-Performance beeinträchtigen.
Snapshots und Recovery laufen auf der Boot-SSD unabhängig vom RAID-Zustand. Ein System-Rollback nach einem fehlgeschlagenen Update berührt die Modell-Daten nicht. Umgekehrt können RAID-Volumes gesichert oder neu formatiert werden, ohne das laufende Betriebssystem zu berühren.
Ubuntu 24.04 LTS profitiert auf einer dedizierten SSD von stabilen, vorhersehbaren IO-Mustern. Das kommt Systemdiensten wie Docker, systemd-units und Monitoring-Agenten zugute.
Typische Speicheranforderungen für KI-Modelle
Wer plant, welche Modelle er lokal betreiben will, braucht Orientierung. Hier sind realistische Größenordnungen:
Sprachmodelle (LLMs):
- Llama 3.2 3B (4-bit quantisiert): ~2 GB
- Llama 3.1 8B (4-bit quantisiert): ~5 GB
- Mistral 7B (4-bit quantisiert): ~4,5 GB
- Llama 3.3 70B (4-bit quantisiert): ~40 GB
- Llama 3.1 405B (4-bit quantisiert): ~230 GB
Bild- und Multimodal-Modelle:
- Stable Diffusion XL: ~6 GB
- Flux.1 schnell: ~17 GB
- Flux.1 dev (fp8): ~17 GB
- LLaVA 13B (4-bit): ~8 GB
RAG-Infrastruktur:
- Embedding-Modell (z.B. bge-m3): ~600 MB
- Vektordatenbank-Index (1 Mio. Dokumente, 1024-dim): ~4–8 GB
- Qdrant-Persistenz-Layer für 10 Mio. Einträge: ~40–80 GB
Auf 4 TB RAID passen beispielsweise:
- 10 verschiedene 70B-Modelle in unterschiedlichen Quantisierungen
- 50+ kleinere 7B/8B-Modelle
- Umfangreiche RAG-Indizes und Embedding-Caches
- Trainingsdaten und Evaluation-Datasets
Das reicht für die meisten Unternehmens-Setups ohne permanente Archivierungsarbeit.
RAID-Konfiguration und Datensicherheit
NVMe-RAID ist nicht dasselbe wie klassisches SATA-RAID. PCIe-5.0-NVMe-Laufwerke haben deutlich höhere Bandbreite pro Laufwerk. Deshalb skaliert der RAID-Verbund im BRW-B01 auf die genannten 59,3 GB/s.
RAID 0 maximiert Durchsatz ohne Redundanz. Für reine Lese-Workloads auf Daten, die anderweitig gesichert sind, ist das vertretbar.
RAID 10 (Mirror + Stripe) ist die Standardempfehlung für Produktionsumgebungen: volle Lese-Performance, Schreibredundanz, Ausfall eines Laufwerks ohne Datenverlust.
RAID 5/6 bieten Parität auf Kosten von Schreib-IOPS. Bei NVMe-Geschwindigkeiten ist der Overhead beherrschbar, aber für Write-intensive Trainingsjobs ist RAID 10 die bessere Wahl.
Badische Rechenwerke konfiguriert das RAID nach Anforderung. Wer produktiv mit Modellen arbeitet, sollte RAID 10 wählen. Die 4 TB Netto-Kapazität ist bereits nach RAID-Overhead berechnet.
PCIe 5.0 und die Anbindung ans Gesamtsystem
Das BRW-B01 nutzt PCIe 5.0 durchgehend, nicht nur für die GPUs, sondern auch für die NVMe-Laufwerke. Das ist der entscheidende Unterschied zu älteren Plattformen, die PCIe 5.0 nur selektiv einsetzen.
PCIe 5.0 verdoppelt die Bandbreite gegenüber PCIe 4.0 pro Lane. Ein x4-Slot liefert damit bis zu 16 GB/s, ein x16-Slot bis zu 64 GB/s. Das RAID kombiniert mehrere solcher Verbindungen.
Im Gesamtsystem entstehen keine Storage-Engpässe:
- 4× NVIDIA RTX PRO 6000 Blackwell mit je 96 GB GDDR7 warten nicht auf langsameren Speicher.
- Der AMD EPYC Genoa mit 32 Kernen verarbeitet IO-intensive Vorbereitungsschritte direkt neben den GPUs.
- 59,3 GB/s Lesebandbreite übersteigt die typische GPU-PCIe-Transferrate. Der Speicher ist schneller als die GPU-Anbindung.
Das System ist in der Balance. Kein Subsystem zieht die anderen runter.
Erweiterbarkeit und Backup-Strategie
Die Supermicro 5U Plattform bietet freie NVMe-Slots für spätere Erweiterungen. Wer heute mit 4 TB startet und in zwei Jahren 8 oder 16 TB benötigt, rüstet Laufwerke nach, ohne Systemwechsel.
Backup-Strategie für KI-Systeme unterscheidet sich von klassischer IT:
Modell-Weights sind in der Regel reproduzierbar (öffentliche Checkpoints, HuggingFace) und müssen nicht täglich gesichert werden. Fine-Tunings, proprietäre Checkpoints und RAG-Indizes sind dagegen wertvoll und brauchen eine Backup-Strategie.
Empfehlungen:
- Fine-Tuned Adapters täglich auf separaten Storage (NAS, S3-kompatibel) sichern
- Vektordatenbanken mit inkrementellem Backup (Qdrant, Weaviate unterstützen native Snapshots)
- System-Snapshots der Boot-SSD vor größeren Updates
- Netzwerkspeicher-Integration über 10G Ethernet möglich, die Plattform unterstützt das
Ein NAS im Rack als zweite Speicherebene ist sinnvoll, wenn Datasets die 4 TB überschreiten. NVMe bleibt dann der schnelle Arbeitsspeicher; das NAS übernimmt Archivierung und Backup.
Empfehlung von Badische Rechenwerke
59,3 GB/s sind kein Luxus, wenn Modelle täglich wechseln. Wer einen einzigen Inferenz-Dienst dauerhaft betreibt, kommt vielleicht mit weniger aus. Wer aber mehrere Teams, verschiedene Modelle und produktive RAG-Backends in einer Maschine betreiben will, braucht genau diese Bandbreite.
Die Kombination aus 4 TB RAID für Modelle und 1 TB isolierter Boot-SSD löst ein häufiges Problem in KI-Infrastruktur: Storage wird einheitlich konfiguriert, bis die erste OS-Partition vollläuft oder ein RAID-Rebuild den Betrieb unterbricht.
Das BRW-B01 ist in dieser Hinsicht produktionsreif ab Tag eins. Die Architekturentscheidung (getrennter Boot, schnelles RAID, PCIe 5.0 throughout) ist nicht verhandelbar für Systeme, die unter Last stehen sollen.
Das Gesamtsystem ist ab 75.000 € zzgl. MwSt. erhältlich. Für Teams, die lokale KI ohne Cloud-Abhängigkeit betreiben wollen, ist das eine einmalige Investition, ohne laufende API-Kosten und ohne Datenschutz-Kompromisse.
FAQ
Welche Speicherkapazität bietet das BRW-B01?
4 TB NVMe RAID für Modelle, Datasets und Arbeitsspeicher, plus eine separate 1 TB Boot-SSD ausschließlich für das Betriebssystem.
Wie schnell lädt der Speicher Modelle in den GPU-VRAM?
Mit 59,3 GB/s sequentieller Lesebandbreite lädt ein quantisiertes 70B-Modell (~40 GB) in unter einer Sekunde vom RAID in den Arbeitsspeicher, bereit zur GPU-Übertragung.
Warum ist ein separates Boot-Laufwerk sinnvoll?
OS-Schreiblast (Logs, Updates, Swap) belastet die Boot-SSD, nicht das Modell-RAID. Snapshots und Recovery laufen isoliert, ohne den laufenden Betrieb zu unterbrechen.
Welche RAID-Konfiguration wird im BRW-B01 eingesetzt?
Die genaue RAID-Stufe (0, 5 oder 10) wird bei der Konfiguration festgelegt, abhängig davon, ob Durchsatz oder Redundanz priorisiert wird. Badische Rechenwerke empfiehlt RAID 10 für Produktionsumgebungen.
Passt ein Llama 3 70B quantisiert auf das System?
Ja. Ein auf 4-Bit quantisiertes Llama 3 70B belegt rund 40 GB. Auf 4 TB RAID passen damit ca. 100 solcher Modelle parallel vor, ohne Kompromisse.
Ist das System auf mehr Speicher erweiterbar?
Die Supermicro 5U Plattform bietet freie NVMe-Slots. Kapazitäten bis in den mehrstelligen Terabyte-Bereich sind möglich, ohne das System zu tauschen.
Wie verhält sich NVMe gegenüber SATA SSD oder HDD bei KI-Workloads?
SATA SSD erreicht maximal ~550 MB/s, klassische HDDs liegen bei 100–200 MB/s. Das NVMe-RAID im BRW-B01 ist damit rund 100× schneller als eine HDD und 50× schneller als eine typische SATA SSD.
Eignet sich das System für RAG-Workloads mit Vektordatenbanken?
Ja. Vektordatenbanken wie Qdrant oder Weaviate profitieren massiv von NVMe-IOPS bei zufälligem Zugriff. 59,3 GB/s sequentiell bedeuten auch sehr hohe Random-Read-Performance für Index-Traversal.