Datenresidenz & DSGVO für KI-Workloads

Wo liegen Ihre KI-Trainingsdaten wirklich? Leitfaden zu Datenresidenz, DSGVO und EU AI Act für rechtskonforme KI-Workloads.

Fragt man ein Team, wo seine KI-Trainingsdaten liegen, bekommt man oft eine selbstsichere, falsche Antwort. Man verweist auf die gewählte Cloud-Region — etwa Frankfurt — und hält die Sache für geklärt. Doch wo Daten auf der Landkarte liegen, ist nur eine von mehreren Fragen, die darüber entscheiden, ob ein KI-Workload rechtmäßig ist — und selten die wichtigste. Die Daten können zur Ausfallsicherheit andernorts repliziert, vorübergehend in einer anderen Region verarbeitet oder für einen Betreiber zugänglich sein, der Gesetzen auf der anderen Seite der Welt unterliegt. Bei KI, wo Datensätze riesig sind und Pipelines sich über Training, Feintuning, Inferenz und Logging erstrecken, hören diese Unterscheidungen auf, akademisch zu sein.

Dieser Leitfaden entwirrt die Begriffe, die achtlos vermischt werden — Datenresidenz und Datensouveränität vor allem — und ordnet sie den Pflichten zu, die tatsächlich für KI-Workloads unter der DSGVO und dem EU AI Act gelten. Das Ziel: Ihnen zu helfen, präzise und belastbar zu beantworten, wo Ihre KI-Daten liegen, wer sie erreichen kann und was das für die Compliance bedeutet.

Residenz und Souveränität sind nicht dasselbe

Die mit Abstand nützlichste Klärung ist der Unterschied zwischen Datenresidenz und Datensouveränität, denn beide werden routinemäßig als Synonyme behandelt — und sind es nicht.

Datenresidenz ist rein geografisch: der physische Ort, an dem Daten gespeichert und verarbeitet werden. Die Wahl einer deutschen oder europäischen Rechenzentrumsregion erfüllt die Residenz. Sie ist eine notwendige Bedingung für viele Compliance-Regime und zugleich am leichtesten nachzuweisen — man kann auf die Anlage auf der Karte zeigen.

Datensouveränität betrifft rechtliche Kontrolle und Zuständigkeit: Welchem Recht unterstehen die Daten, und wer kann rechtmäßig Zugriff erzwingen? Genau hier reicht Residenz allein nicht aus. Daten können physisch in Frankfurt liegen, während der Betreiber der Plattform nach einer ausländischen Rechtsordnung gegründet ist, die ihn unter Umständen verpflichten kann, Daten herauszugeben — unabhängig vom Speicherort. Residenz beantwortet das Wo; Souveränität beantwortet, unter wessen Hoheit. Ein Workload kann perfekte Residenz besitzen und dennoch keine Souveränität — und für sensible KI-Daten ist genau diese Lücke der Ort, an dem das Risiko wohnt.

Warum die Unterscheidung bei KI stärker schmerzt

KI verschärft das Problem, weil sie so viele Daten verbraucht und erzeugt — und sie ständig bewegt. Training liest gewaltige Korpora; Feintuning bettet Ihre geschützten Informationen direkt in die Modellgewichte ein; Inferenz erzeugt Prompts und Ausgaben, die selbst personenbezogene Daten sein können; und das Logging fängt all das still für Fehlersuche und Verbesserung ein. Jede dieser Phasen ist ein Ort, an dem Daten eine Grenze überschreiten können, die Sie nicht beabsichtigt haben. Eine Residenzzusage für den Storage-Bucket sagt nichts darüber aus, wohin die Inferenz-Logs gehen oder welche Ingenieure, unter welcher Rechtsordnung, sie lesen können.

Was die DSGVO tatsächlich verlangt

Die DSGVO verbietet nicht, personenbezogene Daten aus der EU zu verlagern, sie knüpft es aber an strenge Bedingungen. Eine Übermittlung in ein Drittland ist nur mit geeigneter Garantie rechtmäßig: ein Angemessenheitsbeschluss, der das Schutzniveau jenes Landes als gleichwertig anerkennt, Standardvertragsklauseln, verbindliche interne Datenschutzvorschriften oder eine eng gefasste Ausnahme. Die Komplikation bei KI ist, dass eine Übermittlung nicht nur das Verschiffen einer Datenbank ins Ausland ist — sie umfasst auch den Fernzugriff. Kann ein Ingenieur außerhalb der EU personenbezogene EU-Daten einsehen, oder kann ein Support-Team in einem anderen Land sie erreichen, ist das eine Übermittlung im Sinne der Verordnung, selbst wenn die Bytes die Frankfurter Platte nie verlassen.

Deshalb ist die Unterscheidung von Residenz und Souveränität nicht pedantisch. Daten, die physisch in der EU liegen, aber für einen Betreiber zugänglich sind, der ausländischen Offenlegungsgesetzen unterliegt, werfen genau jene Bedenken auf, die europäische Aufsichtsbehörden seit dem Kippen früherer transatlantischer Rahmenwerke umtreiben. Der praktische Prüfstein, zu dem die DSGVO Sie drängt, lautet nicht nur, wo die Daten liegen, sondern wer auf sie zugreifen kann und unter welchem rechtlichen Zwang.

Der EU AI Act fügt eine zweite Ebene hinzu

Für KI-Workloads ist das Datenschutzrecht nicht länger das ganze Bild. Der EU AI Act führt Pflichten ein, die auf der DSGVO aufsetzen und sich am Risikoniveau des Systems ausrichten. Hochrisiko-Anwendungen — etwa Systeme in Beschäftigung, Kreditvergabe, kritischer Infrastruktur oder anderen folgenreichen Entscheidungen — tragen Pflichten rund um Daten-Governance, Dokumentation, Transparenz, menschliche Aufsicht und Aufzeichnung.

Mehrere dieser Pflichten haben eine unmittelbare Dimension von Datenresidenz und Rückverfolgbarkeit. Sie sollen Qualität und Herkunft der Trainingsdaten steuern, dokumentieren, wie das System gebaut und worauf es trainiert wurde, und Protokolle führen, die das Verhalten des Systems prüfbar machen. Diese Pflichten zu erfüllen ist dramatisch leichter, wenn Ihre Daten und Ihre Pipeline auf einer Infrastruktur liegen, in die Sie vollständig hineinsehen können — in einer Rechtsordnung, für die Sie ohnehin bereits entwerfen. Diese Lineage aus einem undurchsichtigen externen Dienst herzustellen ist eine wiederkehrende Quelle des Ärgers.

Den KI-Datenlebenszyklus kartieren

Weil Compliance den Daten folgt, hilft es, den gesamten Lebenszyklus abzuschreiten und die Fragen nach Residenz und Zugriff an jeder Phase zu stellen — nicht nur auf der Speicherebene.

Erhebung und Trainingsdaten

Es beginnt damit, wo Quelldaten erhoben werden und wo sie landen. Trainingskorpora kombinieren oft viele Quellen, und personenbezogene Daten schleichen sich gern ein, selbst wenn es niemand beabsichtigt hat. Die Residenz des Trainingsdatensatzes und die Rechtsgrundlage für die Nutzung personenbezogener Daten darin sind fundamental — Fehler hier pflanzen sich in alles Nachgelagerte fort.

Feintuning und das Problem der Gewichte

Feintuning verdient besondere Aufmerksamkeit, weil es die Natur der Daten verändert. Justieren Sie ein Modell auf personenbezogenen oder geschützten Daten fein, wird diese Information in den Gewichten eingebettet. Das entstehende Modell ist in einem bedeutsamen Sinne aus den Daten abgeleitet, und Fragen der Löschung und Kontrolle werden wirklich schwierig: Man kann nicht einfach die Zeile einer Person aus einem trainierten Modell entfernen. Feintuning innerhalb einer kontrollierten, souveränen Umgebung zu halten vermeidet Modellartefakte, deren Herkunft und Rechtsordnung Sie nicht belegen können.

Inferenz und Logging

Zur Inferenzzeit können Prompts und Ausgaben frische personenbezogene Daten enthalten, und die Protokolle, die sie einfangen, sind häufig die am stärksten übersehene Exposition überhaupt. Teams sichern den Trainingssatz und streamen dann jeden Prompt an einen Logging-Dienst in einer anderen Rechtsordnung. Behandeln Sie Inferenzverkehr und Logs als vollwertige personenbezogene Daten mit denselben Anforderungen an Residenz und Zugriff wie alles übrige.

KI-Workloads bauen, die von Grund auf konform sind

Das Muster, das sich aus alledem ergibt, lautet: Compliance ist strukturell weit leichter zu erreichen als nachträglich aufzusetzen. Läuft die gesamte KI-Pipeline — Daten, Training, Feintuning, Inferenz und Logs — auf Infrastruktur, die in Ihrer Rechtsordnung liegt und unter Ihrem Rechtssystem betrieben wird, stellen sich die meisten Fragen grenzüberschreitender Übermittlung schlicht nie. Es gibt keine Drittlandübermittlung abzusichern, keinen Zugriff eines ausländischen Betreibers zu erklären, und die Dokumentation und Prüfspuren, die der AI Act verlangt, sind Nebenprodukte davon, das System dort zu betreiben, wo Sie hineinsehen können.

Das ist das Argument für souveräne Infrastruktur als Fundament für KI — und nicht bloß eine Regionsauswahl innerhalb einer globalen Cloud. clouditiv geht es so an: eine OpenStack-basierte Private Cloud, in Deutschland gehostet, unter europäischem Recht betrieben, mit GPU-Compute für KI-Training und -Inferenz, Ceph-Storage, der Datensätze und Modellartefakte im Land hält, und Monitoring mit Prometheus und Grafana, das Aktivität prüfbar macht — vollständig DSGVO-konform und ausgerichtet an ISO 27001 und BSI C5. Es geht nicht um die Marke der Plattform, sondern um die Architektur: Ist Souveränität eingebaut, hört Datenresidenz für KI-Workloads auf, eine Einstellung zu sein, von der man hofft, dass sie hält, und wird zu einer strukturellen Garantie.

Eine praktische Checkliste

Um das greifbar zu machen, treffen einige wenige Fragen den Kern der Compliance-Lage eines KI-Workloads. Wo liegt jede Phase der Pipeline physisch — nicht nur der Storage, sondern Training, Inferenz und Logs? Welcher Rechtsordnung unterliegt der Betreiber, und könnte er zur Offenlegung von Daten gezwungen werden? Wer kann auf Daten und Modell zugreifen, aus welchem Land, und ist dieser Zugriff selbst eine Übermittlung? Können Sie die Herkunft Ihrer Trainingsdaten dokumentieren und die Protokolle vorlegen, die eine Prüfstelle oder der AI Act erwarten würde? Und falls ein Modell auf personenbezogenen Daten feinjustiert wurde — können Sie erklären und kontrollieren, was nun in seinen Gewichten lebt?

Wenn diese Fragen für Ihr aktuelles Setup unbehaglich zu beantworten sind, ist genau dieses Unbehagen das Signal. Meist bedeutet es, dass Residenz mit Souveränität verwechselt wurde — und dass der einfachste Weg zur Gewissheit darin besteht, die Pipeline auf eine Infrastruktur zu holen, auf der die Antworten von Bauart her offensichtlich sind.

Das Fazit

Wo Ihre KI-Trainingsdaten liegen, ist eine täuschend tiefe Frage. Residenz nennt den Ort; Souveränität nennt, wer Macht über ihn hat; und bei KI sind die Daten in ständiger Bewegung über Phasen hinweg, die je für sich neue Exposition schaffen. Die DSGVO knüpft jede grenzüberschreitende Übermittlung an Bedingungen — auch den bloßen Fernzugriff —, und der EU AI Act legt Governance- und Rückverfolgbarkeitspflichten darüber, die Transparenz belohnen. Die Organisationen, die das souverän bewältigen, sind jene, die aufhören, Compliance als Regions-Dropdown zu behandeln, und beginnen, sie als Architekturentscheidung zu begreifen — ihre KI auf souveräner Infrastruktur betreibend, auf der die ehrliche Antwort auf die Frage, wo die Daten liegen, schlicht lautet: genau hier, unter unserer Kontrolle.