GPU-Server für KI: On-Prem vs. Cloud (TCO)

GPU-Miete summiert sich schnell. Vergleich der Gesamtkosten von eigenem vs. gemietetem GPU-Server für KI-Training und -Inferenz.

Die erste Rechnung aus der GPU-Cloud sieht immer vernünftig aus. Ein paar Euro pro Stunde für einen Spitzenbeschleuniger wirken wie ein Schnäppchen neben dem Listenpreis der Hardware. Dann ziehen sich die Trainingsläufe über Wochen, die Inferenz-Endpunkte bleiben rund um die Uhr online, die Gebühren für abfließende Daten summieren sich — und ein Jahr später blickt die Finanzabteilung auf eine Zahl, für die man die Server gleich mehrfach hätte kaufen können. Die Betrachtung pro Stunde verschleiert die Wahrheit: GPUs sind einer der wenigen Workloads, bei denen die Rechnung Mieten gegen Kaufen häufig klar zugunsten des Kaufens kippt.

Dieser Beitrag arbeitet diese Rechnung ehrlich durch. GPUs zu mieten ist in vielen Situationen tatsächlich die richtige Wahl, und der Kauf birgt reale Risiken, die Begeisterte gern übergehen. Das Ziel ist nicht, Sie zu einer Antwort zu drängen, sondern Ihnen den Rahmen zu geben, Ihren eigenen Break-even zu finden — jenes Auslastungsniveau, oberhalb dessen der Griff zum Investitionsbudget die Abrechnung pro Stunde schlägt.

Warum die GPU-Ökonomie anders ist als normale Rechenleistung

Bei gewöhnlichen CPU-Workloads liegt der Public-Cloud-Preis oft nah genug an den Kosten des Eigenbetriebs, dass die Flexibilität den Aufschlag wert ist. GPUs durchbrechen dieses Muster aus zwei Gründen. Erstens ist die Hardware außergewöhnlich teuer und chronisch knapp, weshalb Anbieter sie so bepreisen, dass sie ihr eigenes Kapital rasch zurückverdienen — und danach weit über den Amortisationspunkt hinaus weiterkassieren. Zweitens laufen GPU-Workloads in der Regel heiß: Ein Modell im Training oder ein Inferenzdienst in der Produktion ist kein schubweises, gelegentlich untätiges Etwas, sondern oft über lange Zeiträume nahe 100 Prozent ausgelastet.

Genau diese Kombination ist das Szenario, in dem Mieten im Vergleich zum Kauf am teuersten ist. Cloud-Preise sind für variable, unvorhersehbare Nachfrage optimiert. KI-Arbeit auf GPUs ist häufig das Gegenteil: schwer, anhaltend und — sobald ein Projekt läuft — vorhersehbar. Man zahlt am Ende einen Aufschlag für eine Flexibilität, die man gar nicht nutzt.

Die wahren Kosten des Eigenbetriebs

Für einen fairen Vergleich muss man auf der Eigenbetriebsseite alles zählen, nicht nur den Kaufpreis. Die ehrlichen Gesamtkosten einer On-Premise-GPU-Installation umfassen die Beschleuniger und die umgebende Serverhardware, aber auch jene Posten, die man bequem vergisst.

Kapital und die Komponenten rund um die GPU

Eine GPU läuft nicht allein. Sie steckt in einem Server mit kräftiger CPU, viel Arbeitsspeicher und schnellem lokalem NVMe, verbunden über Hochgeschwindigkeitsnetzwerk — denn die Beschleuniger schnell genug mit Daten zu füttern, ist eine eigene Herausforderung. Für Multi-GPU-Training ist die Verbindung zwischen den Karten von enormer Bedeutung. Kalkulieren Sie den gesamten Knoten ein, dazu die Leaf-Spine-Fabric und den gemeinsamen Storage, der mehrere Knoten zusammenarbeiten lässt — nicht nur die Chips.

Strom, Kühlung und Platz

Hochwertige Beschleuniger ziehen ernsthaft Strom und werfen ernsthaft Wärme ab. Ein dichter GPU-Knoten kann mehrere Kilowatt ziehen, und dieser Strom wird zweimal bezahlt — einmal für den Betrieb der Karten und einmal für ihre Kühlung. Über eine Hardware-Lebensdauer von drei bis vier Jahren kann Energie zu einem der größten Posten werden. Auch deshalb ist der Standort entscheidend: Stromkosten und Kühlungseffizienz unterscheiden sich erheblich zwischen einer Abstellkammer, einer Colocation-Fläche und einem eigens gebauten Rechenzentrum.

Betrieb und der Faktor Mensch

Irgendjemand muss die Flotte einbauen, patchen, überwachen und entstören, Treiber und CUDA-Stacks aktuell halten und die unvermeidlichen Hardwareausfälle bewältigen. Diese betriebliche Last ist der Kostenblock, den Teams am häufigsten unterschätzen, wenn sie ein Hardware-Angebot mit einem Stundensatz vergleichen. Er ist real — und das stärkste Argument für einen Managed-Ansatz statt reinem Selbermachen.

Die wahren Kosten des Mietens

Auch die Mietseite hat ihre verborgenen Tiefen. Der plakative Stundensatz für die GPU ist nur der Anfang. Anhaltende Workloads zahlen diesen Satz ununterbrochen, und die günstigeren Optionen mit Nutzungszusage oder Reservierung, die ihn senken, untergraben genau jene Flexibilität, die das Mieten überhaupt rechtfertigte — wer sich auf ein Jahr GPU-Kapazität festlegt, hat faktisch ein Jahr Hardware gekauft, ohne den Vermögenswert zu besitzen.

Dann kommen die Nebenposten, die aus einer sauberen Stundenzahl eine unübersichtliche Rechnung machen: Storage für große Datensätze und Checkpoints, Egress-Gebühren beim Herausziehen von Ergebnissen oder Modellen, Premium-Networking und die Support-Stufe, die man unweigerlich braucht. Besonders der Egress bestraft KI-Workloads, weil Modelle und Datensätze groß sind und sich gern bewegen. Rechnet man die Opportunitätskosten der GPU-Knappheit hinzu — die gewünschten Instanzen sind in der benötigten Region gerade dann oft nicht verfügbar, wenn die Nachfrage steigt —, schwächelt das Bequemlichkeitsargument weiter.

Den eigenen Break-even finden

Die Entscheidung läuft letztlich auf eine einzige beherrschende Größe hinaus: die Auslastung. Die Intuition ist einfach. Der Stundensatz gemieteter GPUs ist so kalkuliert, dass der Anbieter die Hardwarekosten in wenigen Monaten Vollzeitnutzung zurückverdient und danach Gewinn macht. Nähert sich Ihre Nutzung der Vollzeit, zahlen Sie diesen Satz aus Amortisation plus Gewinn auf unbestimmte Zeit — obwohl Sie die Hardwarekosten selbst hätten tragen und nach der Amortisation aufhören können zu zahlen.

Als grobe Faustregel gilt: GPUs, die stark laufen — sagen wir mehr als etwa die Hälfte aller Stunden über einen Mehrjahreshorizont —, sprechen für den Kauf, oft drastisch, sobald man die über Jahre auflaufenden Stundenkosten berücksichtigt. GPUs, die in kurzen, seltenen Schüben genutzt werden, sprechen fürs Mieten, weil man kein leerlaufendes Silizium bezahlt. Der Break-even ist kein für alle gültiger Prozentwert; er verschiebt sich mit Ihren Stromkosten, dem aushandelbaren Hardwarepreis und der Auslastung. Doch die Form der Kurve bleibt gleich: Je konstanter die Nachfrage, desto stärker das Argument für den Kauf.

Das Modell auf die Workload-Phase abstimmen

Die klugen Teams wählen selten ein Modell für alles. Explorative Forschung mit sporadischem, unvorhersehbarem GPU-Bedarf passt natürlich zum Mieten. Ein stetiger Inferenzdienst in der Produktion, der jede Stunde jedes Tages läuft, passt natürlich zum Kauf. Ein großer einmaliger Trainingslauf, den Sie nie wiederholen, ist in der Cloud womöglich am günstigsten; eine Trainings-Pipeline, die Sie laufend betreiben, während Daten eintreffen, ist auf eigener Hardware am günstigsten. Jede Phase des KI-Lebenszyklus dem passenden Modell zuzuordnen ist meist besser als eine pauschale Vorgabe.

Die Faktoren, bei denen es nicht ums Geld geht

Die Kosten beherrschen die Diskussion, doch zwei nicht-finanzielle Faktoren entscheiden sie häufig. Der erste ist Datengravitation und Souveränität. KI-Trainingsdaten sind oft die sensibelsten Daten einer Organisation — Kundendaten, geistiges Eigentum, regulierte Informationen. Sie an einen Hyperscaler in einer anderen Rechtsordnung zu senden wirft unter der DSGVO und Branchenregeln echte Fragen auf, und für viele europäische Organisationen lautet die Antwort schlicht: Die Daten dürfen das Haus nicht verlassen. Wo diese Bedingung bindend ist, wird der TCO-Vergleich zweitrangig; eigene oder souveräne Infrastruktur ist dann keine Optimierung, sondern eine Voraussetzung.

Der zweite ist Kontrolle und Planbarkeit. Eigene Hardware steht Ihnen jederzeit zur Verfügung — kein Wettlauf um knappe Instanzen, keine überraschenden Preisänderungen, keine Kapazitätslotterie nach Region. Für Teams, deren Roadmap von verlässlichem Zugang zu Beschleunigern abhängt, hat diese Gewissheit einen eigenen Wert, unabhängig von der reinen Rechnerei.

Der gemanagte Mittelweg

Die Wahl wird oft als Entweder-oder dargestellt — beim Hyperscaler mieten oder ein eigenes Rechenzentrum bauen und betreiben —, doch die attraktivste Option liegt für viele Organisationen dazwischen. Eine gemanagte Private Cloud erlaubt es, die GPU-Kapazität zu besitzen oder fest zu reservieren, die Ökonomie hoher Auslastung mitzunehmen und die Daten in der eigenen Rechtsordnung zu halten — während die betriebliche Last, die reines Selbermachen schmerzhaft macht, ausgelagert wird.

Genau auf dieses Modell ist clouditiv ausgelegt. GPU-Compute läuft auf souveräner, OpenStack-basierter Infrastruktur in Deutschland, mit der Leaf-Spine-Vernetzung und dem Ceph-Storage, die ernsthafte KI-Arbeit braucht, dem Monitoring mit Prometheus und Grafana, das die Auslastung sichtbar hält, und einer Plattform, die für Sie betrieben wird, damit Ihr Team an Modellen arbeitet statt an Treiber-Updates. Sie erhalten das Kostenprofil des Eigenbetriebs für anhaltende Workloads und die Datenresidenz, die GPU-Miete beim Hyperscaler nicht bieten kann — ohne ein eigenes Rechenzentrumsteam aufstellen zu müssen.

Das Fazit

GPU-TCO ist einer der klarsten Fälle in der modernen Infrastruktur, in dem die bequeme Standardwahl — stundenweise mieten — häufig die teure ist. Der entscheidende Faktor ist die Auslastung: schubweise, explorative Arbeit belohnt das Mieten, während anhaltendes Training und Always-on-Inferenz den Kauf belohnen, oft mit großem Abstand, sobald ein Mehrjahreshorizont und Egress-Kosten einbezogen sind. Nimmt man Datensouveränität und den Wert garantierten Zugangs hinzu, wird das Argument für dedizierte oder gemanagte GPU-Infrastruktur noch stärker. Bevor Sie sich auf ein weiteres Jahr stundenweiser Abrechnung festlegen, rechnen Sie ehrlich über die gesamte Lebensdauer des Vorhabens — der Break-even könnte schon hinter Ihnen liegen.