← Zurück

2026 ist das Jahr, in dem KI eure Datenbestände unbemerkt vergiftet

Generative KI infiltriert zentrale Datenbestände. Die Fehler sind realistisch und skalieren. Datenintegrität wird 2026 zur Vorstandsfrage.

September 10, 2025

Recht

Eine Krise neuer Art

Banken erleben 2026 nach Einschätzung von msg for banking eine Krise der Datenintegrität. Generative KI und synthetische Daten dringen auf schwer erkennbare Weise in zentrale Datenbestände ein. Im Gegensatz zu den isolierten Datenqualitätsproblemen der Vergangenheit kann generative KI Fehler in großem Umfang erzeugen, mit einem Grad an Realismus, der es extrem schwer macht, sie als Fehler zu erkennen.

Das ist eine neue Qualität des Problems. Früher waren Datenfehler meist offensichtlich: ein leeres Feld, ein unplausibler Wert, ein Formatfehler. Solche Fehler ließen sich mit Regeln aufspüren. Ein von einer generativen KI erzeugter Fehler dagegen sieht aus wie ein korrekter Eintrag. Er ist plausibel, konsistent und realistisch, und genau deshalb durchläuft er die üblichen Prüfungen, ohne aufzufallen.

Warum die Fehler skalieren

Das zweite Merkmal der neuen Krise ist die Skalierung. Ein menschlicher Fehler bleibt in der Regel ein Einzelfall. Ein Fehler, den eine generative KI erzeugt, kann sich über Tausende von Datensätzen verteilen, weil die KI ihn systematisch und in großer Zahl produziert. Was bei einem Einzelfall harmlos wäre, wird durch die Menge zu einem strukturellen Problem, das ganze Datenbestände durchzieht.

Verschärft wird das dadurch, dass diese Daten weiterverwendet werden. Ein einmal eingedrungener, realistischer Fehler wird zur Grundlage weiterer Auswertungen, Modelle und Entscheidungen. Der Fehler pflanzt sich fort und vermischt sich mit korrekten Daten, bis sich kaum noch unterscheiden lässt, was echt ist und was nicht. Genau das macht die Krise so tückisch: Sie ist nicht laut, sondern leise, und sie wächst, während niemand sie bemerkt.

Besonders heikel ist die Lage dort, wo KI-erzeugte Daten bewusst eingesetzt werden, etwa synthetische Daten zum Testen oder Trainieren von Modellen. Wenn solche Daten unbemerkt in die echten Bestände gelangen, vermischt sich Erfundenes mit Realem. Was als kontrollierter Einsatz synthetischer Daten begann, kann so zur Quelle einer schleichenden Verunreinigung der zentralen Datenbestände werden.

Warum es eine Vorstandsfrage ist

Datenintegrität war lange ein Thema für die IT und das Datenmanagement, eine Frage von Datenqualität und Datenpflege. Mit der neuen Krise wird sie zur Vorstandsfrage. Denn wenn die zentralen Datenbestände eines Instituts unbemerkt verunreinigt sind, sind alle Entscheidungen betroffen, die auf diesen Daten beruhen: Risikobewertungen, Preisgestaltung, regulatorische Meldungen, strategische Steuerung.

Ein Institut, das auf verunreinigten Daten entscheidet, entscheidet falsch, ohne es zu wissen. Es kann ein Risiko unterschätzen, einen Preis falsch setzen, eine Meldung verfälschen, ohne dass jemand den Fehler erkennt, weil die Daten plausibel aussehen. Die Tragweite reicht damit bis in die Kernfunktionen des Hauses, und das macht die Datenintegrität zu einer Frage, die der Vorstand verantworten muss, nicht eine nachgeordnete Stelle.

Was gegen die schleichende Vergiftung hilft

Gegen eine Bedrohung, die plausibel aussieht und skaliert, helfen die alten Mittel nur begrenzt. Einfache Plausibilitätsregeln greifen nicht, weil die Fehler plausibel sind. Was hilft, ist die Kontrolle der Herkunft: Jeder Datenbestand muss nachvollziehbar machen, woher seine Daten stammen, ob sie aus einer echten Quelle oder aus einer KI-Erzeugung kommen, und wann sie eingeflossen sind. Die Herkunft der Daten wird damit zum entscheidenden Kontrollpunkt.

Der zweite Hebel ist die strikte Trennung von echten und synthetischen Daten. Wo synthetische Daten zum Testen oder Trainieren eingesetzt werden, müssen sie sauber von den produktiven Beständen getrennt und als synthetisch gekennzeichnet sein, damit sie nicht unbemerkt in die echten Daten gelangen. Diese Trennung ist eine organisatorische und technische Disziplin, die das Haus bewusst herstellen muss, weil sie nicht von allein entsteht.

Der dritte Hebel ist die Governance über den Einsatz generativer KI im Umgang mit Daten. Es muss geregelt sein, wer generative KI auf welche Datenbestände anwenden darf, wie die Ergebnisse geprüft werden und wie sichergestellt ist, dass KI-erzeugte Inhalte nicht ungeprüft in zentrale Bestände fließen. Ohne diese Governance bleibt das Tor für die schleichende Verunreinigung offen, ganz gleich, wie gut die einzelnen Prüfungen sind.

Der Unterschied zu klassischen Datenqualitätsproblemen

Um die Krise richtig einzuordnen, lohnt der Vergleich mit den Datenqualitätsproblemen der Vergangenheit. Diese waren isoliert, erkennbar und begrenzt. Ein falsch erfasster Wert, eine doppelte Buchung, ein veraltetes Adressfeld, all das ließ sich mit etablierten Methoden finden und korrigieren. Die Fehler waren ärgerlich, aber beherrschbar, weil sie sich von korrekten Daten unterschieden.

Die neue Krise hat eine andere Natur. Die Fehler sind nicht isoliert, sondern verteilt, nicht erkennbar, sondern realistisch, nicht begrenzt, sondern skalierend. Das macht sie zu einer qualitativ anderen Bedrohung, gegen die die klassischen Methoden der Datenqualitätssicherung nur begrenzt helfen. Wer die neue Krise mit den alten Mitteln bekämpft, kämpft gegen einen Gegner, der sich genau diesen Mitteln entzieht.

Warum die Bedrohung leise ist

Das Tückische an der Datenintegritätskrise ist ihre Lautlosigkeit. Ein klassischer Datenfehler macht sich irgendwann bemerkbar, durch eine fehlgeschlagene Verarbeitung, eine unplausible Auswertung, eine Beschwerde. Ein realistischer, von KI erzeugter Fehler macht sich nicht bemerkbar, weil er aussieht wie ein korrekter Wert. Er liegt im Datenbestand und wirkt, ohne dass jemand ihn bemerkt, bis seine Folgen sichtbar werden, und dann ist die Ursache kaum noch zu finden.

Diese Lautlosigkeit ist der Grund, warum die Krise so gefährlich ist. Ein Problem, das laut ist, wird angegangen. Ein Problem, das leise ist, wächst im Verborgenen. Bis ein Institut bemerkt, dass seine Datenbestände verunreinigt sind, kann der Schaden bereits tief eingedrungen sein, in Modelle, in Auswertungen, in Entscheidungen. Die Prävention ist deshalb ungleich wichtiger als die nachträgliche Korrektur, weil die Korrektur oft zu spät kommt.

Die Rolle der menschlichen Prüfung

So sehr es um technische und organisatorische Kontrollen geht, die menschliche Prüfung behält eine wichtige Rolle. An den kritischen Punkten, an denen Daten in zentrale Bestände einfließen oder wichtige Entscheidungen vorbereiten, braucht es den prüfenden Blick erfahrener Mitarbeitender, die erkennen, wenn etwas nicht stimmt, auch wenn es plausibel aussieht. Die menschliche Erfahrung ist ein Korrektiv, das die automatisierten Prüfungen ergänzt.

Das ist allerdings nur dort leistbar, wo der Mensch die Zeit und das Wissen dafür hat. Genau hier verbindet sich die Datenintegritätskrise mit dem Fachkräftemangel und dem Wissensverlust: Wenn die erfahrenen Prüfer in den Ruhestand gehen und die Datenmengen zugleich wachsen, wird die menschliche Prüfung knapp. Das macht die technischen und organisatorischen Kontrollen umso wichtiger, weil sie den Menschen entlasten und auf die wirklich kritischen Fälle konzentrieren müssen.

Ein Thema, das jetzt aufgesetzt werden muss

Die Datenintegritätskrise ist keine ferne Bedrohung, sondern eine, die mit dem wachsenden Einsatz generativer KI bereits begonnen hat. Je mehr ein Haus generative KI einsetzt, desto größer ist die Gefahr, dass deren Ergebnisse unbemerkt in die Datenbestände gelangen. Wer heute KI breit einführt, ohne die Datenintegrität abzusichern, schafft genau die Bedingungen, unter denen die schleichende Verunreinigung gedeiht.

Deshalb gehört die Absicherung der Datenintegrität an den Anfang jeder KI-Initiative, nicht an deren Ende. Es ist leichter, die Herkunftskontrolle, die Trennung synthetischer Daten und die Governance von Anfang an mitzudenken, als sie nachträglich über einen bereits verunreinigten Bestand zu legen. Die Häuser, die das jetzt aufsetzen, schützen ihre Datenbestände, solange sie noch sauber sind. Die anderen werden später versuchen, eine Vermischung zu entwirren, die sich kaum noch entwirren lässt.

Integrität als Voraussetzung jeder KI-Strategie

Die Pointe ist, dass ausgerechnet die KI, die so viel Nutzen verspricht, die Integrität der Daten bedroht, auf denen sie selbst aufbaut. Eine KI, die auf verunreinigten Daten trainiert oder entscheidet, verstärkt den Schaden, statt Nutzen zu stiften. Datenintegrität ist deshalb nicht ein Thema neben der KI-Strategie, sondern ihre Voraussetzung. Ohne saubere, vertrauenswürdige Daten ist jede KI-Investition auf Sand gebaut.

Mehr zum Thema: BaFin-Risikobericht 2026: KI ist nicht das Risiko – fehlende Governance ist es und Der 2. August 2026 kommt. Die meisten Konformitätsbewertungen nicht..

Wir helfen Ihnen, die Integrität Ihrer Datenbestände gegen die schleichende Verunreinigung durch generative KI zu schützen, von der Kontrolle der Herkunft über die Trennung synthetischer Daten bis zur Governance des KI-Einsatzes. Beginnen Sie mit einer Sprechstunde.

Jetzt die Potenziale entdecken

In einem ersten Gespräch klären wir, welche Möglichkeiten realistisch und kurzfristig umsetzbar sind – unverbindlich, persönlich und mit einem klaren Blick auf die nächsten Schritte.