BRW Badische Rechenwerke

Unternehmensberatung · 30-150 Mitarbeitende

On-Premise KI für Unternehmensberatungen: Mandantenschutz und Wirtschaftlichkeit

Warum Unternehmensberatungen auf lokale KI-Infrastruktur setzen: Mandantenschutz, NDA-Konformität, niedrigere Langzeitkosten und schnellere Analysen mit der BRW-B01 KI-Rechenstation aus Baden-Baden.

Branche

Unternehmensberatung

Unternehmensgröße

30-150 Mitarbeitende

Workload

Dokumentenanalyse + Marktrecherche + RAG + Präsentationserstellung

Unternehmensberatungen leben von Vertrauen. Mandanten übergeben Strategiedokumente, Finanzdaten, M&A-Targets und interne Kennzahlen, in der Erwartung, dass diese Informationen das Beratungshaus nicht verlassen. Gleichzeitig hat KI die Art, wie Berater arbeiten, verändert: Marktanalysen, die früher Tage dauerten, entstehen in Stunden. Due-Diligence-Dokumente lassen sich automatisch zusammenfassen. Präsentationsgerüste werden generiert, nicht manuell erstellt.

Das Problem: Die meisten Beratungshäuser greifen dafür auf Cloud-KI-Dienste zurück. Und das ist ein strukturelles Risiko.

Das Datenschutzproblem ist real, nicht theoretisch

Wenn ein Berater Mandantendaten in ein Cloud-KI-System eingibt, verlassen diese Daten das Unternehmensnetz. Punkt. Unabhängig davon, welche vertraglichen Zusicherungen der Anbieter macht, unabhängig davon, ob Training deaktiviert ist, und unabhängig davon, welche Zertifizierungen vorgezeigt werden. Die Daten liegen auf fremden Servern, verarbeitet von fremder Software, unter fremder Kontrolle.

NDAs mit Mandanten formulieren das in der Regel eindeutig. Vertrauliche Informationen dürfen nicht an Dritte weitergegeben werden. Cloud-KI-Anbieter sind Dritte. Das gilt für OpenAI genauso wie für Anthropic, Google oder Microsoft. Wer als Berater Mandantendaten über eine API schickt, verstößt im Zweifel gegen bestehende Vertraulichkeitsvereinbarungen.

Das ist kein theoretisches Szenario. In der Praxis ist es so: Berater nutzen die Tools, weil sie produktiver werden. IT-Abteilungen und Managing Partner ahnen es, schauen weg oder haben schlicht keinen Überblick. Das Risiko akkumuliert still. Bis ein Mandant fragt, welche KI-Systeme für sein Projekt eingesetzt wurden.

On-Premise-KI löst dieses Problem vollständig. Die Daten verlassen das Netz nicht. Es gibt keinen API-Call an externe Server. Die gesamte Verarbeitung findet auf eigener Hardware statt, im eigenen Rechenzentrum oder Serverraum.

Was das in der Praxis bedeutet

Ein mittelgroßes Beratungshaus, 50 bis 100 Berater, arbeitet täglich mit KI an echten Mandatsdaten. Das sind M&A-Targets, Strategiepapiere, Kostenstrukturen von Klienten, Benchmarking-Daten aus Wettbewerbsanalysen. Mit einer lokalen Infrastruktur können diese Daten ohne Einschränkung verwendet werden.

Das ändert, wie Berater arbeiten. Sie laden nicht mehr bereinigte oder anonymisierte Versionen von Dokumenten hoch. Sie laden die Originaldokumente. Ein 400-seitiger Due-Diligence-Datenraum wird vollständig durchsucht, nicht in Auszügen. Ein Strategiebericht enthält echte Zahlen, keine Platzhalter. Die Qualität der KI-Ausgabe steigt direkt mit der Qualität der Eingabe.

Die wirtschaftliche Rechnung

Cloud-KI hat einen Preis, der auf den ersten Blick niedrig wirkt und auf den zweiten Blick erheblich ist.

Nehmen Sie ein Beratungshaus mit 50 aktiven Nutzern. Jeder Berater stellt täglich 20 bis 50 Anfragen, davon viele mit langen Dokumenten als Kontext. Bei GPT-4-class-Modellen entstehen pro Nutzer und Monat Kosten von 100 bis 300 Euro. Über das gesamte Team sind das 5.000 bis 15.000 Euro pro Monat. Dazu kommen spezifischere Workloads: große Dokumentenanalysen, Batch-Zusammenfassungen, Embedding-Berechnungen für RAG-Systeme. Die realen monatlichen Kosten liegen bei wachsender Nutzung schnell bei 10.000 bis 20.000 Euro.

Die BRW-B01 KI-Rechenstation kostet 75.000 € zzgl. MwSt. als Einmalbetrag. Bei monatlichen Cloud-Kosten von 10.000 Euro ist der Break-even nach 7,5 Monaten erreicht. Bei 5.000 Euro monatlich nach 15 Monaten. Danach (und das ist der entscheidende Punkt) fallen keine variablen Kosten mehr an. Jede Analyse, jede Zusammenfassung, jede Präsentation ist kostenlos in dem Sinne, dass die Hardware bereits bezahlt ist.

Das ist die Umstellung von OpEx zu CapEx. Für Beratungshäuser, die KI nicht als Experiment betreiben, sondern als operatives Werkzeug, ist das die ökonomisch überlegene Entscheidung.

Die Hardware

Die BRW-B01 ist kein Kompromiss. Sie ist auf KI-Inferenz und -Training ausgelegt, mit Komponenten, die für diesen Zweck gebaut wurden.

Das System verbaut vier NVIDIA RTX PRO 6000 Blackwell GPUs mit insgesamt 384 GB GDDR7-VRAM. Das ist entscheidend für den Betrieb großer Modelle. Llama-3-70B, Qwen-72B, Mistral-Large: alle laufen vollständig im VRAM, ohne Quantisierungsabstriche, die die Ausgabequalität mindern. Gleichzeitig lassen sich auf 384 GB mehrere Modelle parallel halten, was für Multi-Projekt-Betrieb wichtig ist.

Als CPU ist ein AMD EPYC Genoa mit 32 Kernen verbaut, kombiniert mit 192 GB DDR5-ECC-RAM. Das Speichersystem besteht aus 4 TB NVMe-RAID für Daten und 1 TB Boot-SSD, mit einer sequentiellen Leserate von 59,3 GB/s. Große Dokumentenbestände werden damit in Sekunden geladen, nicht in Minuten.

Das System ist als 5U-Rackmount ausgelegt, mit acht Lüftern für aktive Luftkühlung. Ubuntu 24.04 LTS ist vorinstalliert. Die Maschine wird in Baden-Baden gefertigt.

Mehrere Mandate gleichzeitig, vollständig isoliert

Vier GPUs sind nicht nur für Kapazität relevant. Sie ermöglichen Isolation.

In einem Beratungshaus laufen typischerweise mehrere Mandate parallel. Mandant A ist in einer Branche aktiv, Mandant B ist ein direkter Wettbewerber. Mandant C ist ein öffentlicher Auftraggeber mit eigenen Datenschutzanforderungen. Diese Mandate dürfen sich nicht berühren, weder in den Daten noch in den Modellzuständen.

Mit vier separaten GPUs können vier vollständig getrennte Modellinstanzen laufen. Jede hat ihren eigenen VRAM, ihre eigene Datenpipeline, ihre eigenen Zugriffsrechte. Das ist Mandatsisolation auf Hardware-Ebene, nicht auf Software-Ebene, was ein deutlich stärkeres Sicherheitsversprechen ist. Für ein Beratungshaus, das gleichzeitig in Finanzdienstleistungen, Pharma und öffentlichem Sektor aktiv ist, ist das kein Nice-to-have. Es ist eine Grundvoraussetzung.

Due Diligence

Ein M&A-Mandat bedeutet in der Regel Hunderte von Dokumenten: Verträge, Bilanzen, Protokolle, regulatorische Unterlagen. Mit einem lokalen RAG-System werden alle Dokumente indiziert und können im Sekundentakt durchsucht werden. “Welche Verträge laufen 2027 aus?” liefert eine Antwort in Sekunden, nicht in Stunden manueller Durchsicht.

Marktanalysen und Berichte

Berater sammeln Quellen, Studien, Pressemitteilungen, Branchenreports. Das lokale KI-System strukturiert, verdichtet und formuliert. Was früher ein Junior-Analyst in zwei Tagen zusammenstellte, entsteht in zwei Stunden mit KI-Unterstützung.

Mandantenspezifische Wissensdatenbanken

Für langjährige Mandate lässt sich eine dedizierte Wissensbasis aufbauen, gefüllt mit allen bisherigen Berichten, Protokollen, internen Analysen. Das Modell kennt die Geschichte des Mandanten. Neue Anfragen werden gegen diesen Kontext beantwortet.

Präsentationsentwürfe

Berater erstellen täglich Präsentationen. KI übernimmt die Strukturierungsarbeit: Gliederung, Bullet Points, Executive Summary. Die inhaltliche Verfeinerung bleibt beim Berater.

Wettbewerbsanalyse

Öffentlich zugängliche Daten (Jahresberichte, Pressemitteilungen, LinkedIn-Aktivitäten von Wettbewerbern) werden automatisch aggregiert und ausgewertet. Das System hält die Analyse aktuell, ohne dass ein Berater täglich manuell sucht.

Finanzanalyse

Bilanzanalysen, Kennzahlenvergleiche, Szenarioberechnungen werden mit KI-Unterstützung vorbereitet. Das Modell versteht Kontext und liefert strukturierte Zusammenfassungen, keine rohen Zahlenkolonnen.

Geschwindigkeit als Arbeitsmittel

Cloud-KI hat Latenzen. Jede Anfrage geht über das Netz, wird in einer Queue verarbeitet, kommt zurück. Bei Lastspitzen kommen Rate Limits dazu. Für gelegentliche Anfragen ist das tolerierbar. Für iteratives Arbeiten, bei dem ein Berater 20 Mal eine Analyse verfeinert, ist es ein echter Produktivitätsverlust.

Lokale Inferenz hat keine Netzlatenz, keine Rate Limits, keine Quotas. Eine Anfrage an ein lokal laufendes 70-Milliarden-Parameter-Modell dauert Sekunden. Ein Berater, der ein Argument schärft oder einen Abschnitt umformuliert, arbeitet im Dialog mit dem Modell, nicht in Wartezyklen. Das ändert den Arbeitsrhythmus.

Kein Vendor Lock-in

Cloud-KI-Dienste binden Sie an einen Anbieter. Wenn OpenAI die Preise ändert, die API anpasst oder ein Modell einstellt, sind Sie betroffen. Wenn ein Anbieter neue Nutzungsbedingungen einführt, die mit Mandatsdaten inkompatibel sind, sind Sie betroffen.

On-Premise bedeutet volle Kontrolle über das Modell. Sie wählen, welches Modell Sie einsetzen. Sie können zwischen Llama, Mistral, Qwen und anderen wechseln, je nach Anforderung. Sie können auf eigenen Daten feinabstimmen, um ein Modell zu entwickeln, das die Sprache Ihrer Branche versteht. Sie aktualisieren, wenn Sie bereit sind, nicht wenn ein Anbieter es vorschreibt.

KI als Differenzierungsmerkmal in Proposals

Beratungshäuser, die KI produktiv und nachweislich datenschutzkonform einsetzen, gewinnen Mandate über Wettbewerber, die das nicht können. Das ist keine Spekulation. Mandanten in regulierten Branchen, im öffentlichen Sektor und bei M&A-Transaktionen stellen zunehmend explizit die Frage: Wie setzen Sie KI ein, und wo liegen die Daten?

“Wir betreiben KI vollständig on-premise, Ihre Daten verlassen unser Netz zu keinem Zeitpunkt” ist eine Antwort, die Vertrauen schafft. Sie ist auch für viele Unternehmen die einzige Antwort, die den Auftrag ermöglicht. Banken, Versicherungen, Pharmaunternehmen, Ministerien: Sie alle haben interne Vorgaben, die Cloud-KI für bestimmte Datenklassen ausschließen.

Ein Beratungshaus, das diese Anforderungen erfüllen kann, hat einen strukturellen Vorteil in genau den Mandaten, bei denen die Marge und die Komplexität am größten sind.

Empfehlung von Badische Rechenwerke

Die BRW-B01 ist für Beratungshäuser mit 30 bis 150 Mitarbeitenden die richtige Infrastrukturentscheidung, wenn KI nicht mehr nur experimentell eingesetzt wird, sondern operativer Bestandteil der täglichen Arbeit ist.

Das System liefert die Rechenleistung, die für große Sprachmodelle notwendig ist, mit genug VRAM, um mehrere Modelle parallel zu betreiben und mehrere Mandate zu isolieren. Es ist datenschutzkonform ohne Aufwand, weil die Architektur das erzwingt, nicht weil ein Vertrag es verspricht. Und es amortisiert sich schneller als die meisten internen IT-Projekte vergleichbarer Tragweite.

Das Gesamtsystem ist ab 75.000 € zzgl. MwSt. erhältlich, gefertigt in Baden-Baden.

Wenn Sie wissen möchten, wie die BRW-B01 in Ihre bestehende Infrastruktur passt, welche Modelle für Ihre Workloads geeignet sind, und wie der Rollout konkret aussieht, sprechen Sie direkt mit uns.

Kontakt aufnehmen

FAQ

Dürfen Berater Mandantendaten in Cloud-KI-Dienste wie ChatGPT oder Claude eingeben?

In den meisten Fällen nein. Standard-NDAs und Datenschutzvereinbarungen verbieten die Weitergabe vertraulicher Mandantendaten an Dritte explizit. Cloud-KI-Anbieter verarbeiten Anfragen auf externen Servern. Selbst wenn ein Anbieter No-Training-Garantien gibt, verlassen die Daten das eigene Netz. On-Premise-Betrieb ist die einzig sichere Lösung.

Wie schnell amortisiert sich die BRW-B01 gegenüber Cloud-API-Kosten?

Bei einem Beratungshaus mit 50 aktiven KI-Nutzern und realistischem Tagesvolumen entstehen monatliche API-Kosten von 5.000 bis 15.000 Euro. Die BRW-B01 kostet 75.000 Euro einmalig. Damit liegt der Break-even typischerweise zwischen 18 und 30 Monaten. Danach fallen keine variablen Kosten pro Anfrage mehr an.

Können verschiedene Mandatsprojekte gleichzeitig und isoliert auf einer BRW-B01 laufen?

Ja. Die vier NVIDIA RTX PRO 6000 Blackwell GPUs lassen sich einzeln oder in Gruppen verschiedenen Projekten zuweisen. Jede GPU kann eine eigene Modellinstanz betreiben, mit getrennten Datenpipelines und Zugriffsrechten. Mandatsisolation ist auf Hardware-Ebene möglich.

Welche KI-Modelle laufen auf der BRW-B01?

Die Maschine läuft unter Ubuntu 24.04 LTS und unterstützt alle gängigen Open-Source-Modelle, darunter Llama, Mistral, Qwen und spezialisierte Finetuning-Varianten. Sie sind nicht an einen Anbieter gebunden und können Modelle je nach Anwendungsfall wechseln oder eigene feinabgestimmte Varianten einsetzen.

Wie viele Berater können gleichzeitig mit der BRW-B01 arbeiten?

Mit 384 GB GDDR7 VRAM können mehrere große Modelle parallel betrieben werden. In der Praxis unterstützt die Maschine 20 bis 50 gleichzeitige Nutzer, abhängig vom Modell und der Anfragekomplexität. Für typische Beratungsanfragen entstehen keine spürbaren Wartezeiten.

Ist die BRW-B01 auch für Due-Diligence-Prozesse mit Hunderten von PDF-Dokumenten geeignet?

Ja. Mit einem lokalen RAG-System können Hunderte von Vertragsdokumenten, Bilanzen und Berichten indiziert und im Sekundentakt durchsucht und zusammengefasst werden, ohne dass ein einziges Dokument das Unternehmensnetz verlässt.

Welche Anforderungen stellt die BRW-B01 an die Infrastruktur?

Die Maschine ist ein 5U-Rackmount-System. Sie benötigt einen Stellplatz im Serverraum oder Rechenzentrum, eine ausreichende Netzwerkanbindung für interne Nutzer sowie eine geeignete Stromversorgung. Ubuntu 24.04 LTS ist vorinstalliert. Das System kann innerhalb eines Arbeitstages in Betrieb genommen werden.

Kann die BRW-B01 als Verkaufsargument in Beratungsmandaten genutzt werden?

Ja. 'KI-gestützte Analyse, vollständig on-premise, ohne Cloud-Abhängigkeit' ist ein konkretes Differenzierungsmerkmal in Proposals, besonders bei M&A-Mandaten, regulierten Branchen und öffentlichen Auftraggebern mit besonderen Datenschutzanforderungen.