Deutschsprachige PII-Erkennung für die DSGVO-Compliance
Stand: 2026
Deutschland meldete 2024 insgesamt 27.829 Datenschutzverletzungen an den BfDI und die 16 Landesdatenschutzbehörden — ein neuer Höchststand. Das entspricht 31 % aller DSGVO-Meldungen in der EU. Diese Zahlen zeigen nicht nur eine aktive Meldekultur. Sie zeigen auch eine technische Lücke: 65 % der deutschen Unternehmen nutzen PII-Erkennungstools, die unzureichende Unterstützung für die deutsche Sprache bieten.
Dreistufige Durchsetzung in Deutschland
Die DSGVO-Durchsetzung in Deutschland ist komplex. Sie verteilt sich auf 17 Behörden.
BfDI (Bundesbeauftragter): Zuständig für Bundesbehörden, Telekommunikation, Postdienstleister und bundesländerübergreifende Organisationen.
16 Landesdatenschutzbehörden: Jedes Bundesland hat eine eigene Behörde mit unabhängigen Durchsetzungsbefugnissen. Die aktivsten Behörden:
- Bayern – BayLDA: Gilt als eine der technisch anspruchsvollsten Datenschutzbehörden der EU. Auditierte 2024 über 250 Organisationen.
- Hamburg: Pionier bei der Durchsetzung gegen US-Plattformbetreiber.
- Baden-Württemberg – LfDI BW: Erließ die erste KI-spezifische DSGVO-Orientierung in Deutschland.
Unternehmen in Deutschland können gleichzeitig auf Bundes- und Landesebene kontrolliert werden. Das erhöht den Dokumentationsbedarf erheblich.
DACH-Komplexität: Drei Rechtsrahmen, eine Sprache
Deutschsprachige Organisationen im DACH-Raum arbeiten unter drei verschiedenen Rechtsrahmen.
Deutschland: EU-DSGVO mit BfDI und Landesdatenschutzbehörden. Spezifische Identifikatoren: Steueridentifikationsnummer (11 Stellen), Personalausweisnummer (10 Zeichen), IBAN im DE-Format.
Österreich: EU-DSGVO mit DSB-Durchsetzung. Österreichische Identifikatoren: Sozialversicherungsnummer (SVNR, 10 Stellen), eAT (elektronischer Aufenthaltstitel), FinanzOnline-Nummer.
Schweiz: revDSG (seit September 2023 in Kraft) — kein EU-DSGVO, aber eng daran angelehnt. Schweizer Identifikatoren: AHV-Nummer (13 Stellen, Format 756.XXXX.XXXX.XX), UID (Unternehmensidentifikation).
Wer in allen drei Ländern tätig ist, braucht ein PII-Tool, das deutschsprachigen Text und alle drei nationalen Identifikatoren verarbeitet. Hinzu kommt das Liechtensteinische DSG als vierter Rahmen.
Deutsche Identifikatoren im Detail
Steueridentifikationsnummer (Steuer-ID): 11-stellige Steuer-ID, die deutschen Einwohnern ab Geburt zugewiesen wird. Erstes Zeichen darf nicht null sein. Eine Prüfziffer am Ende wird per Modulo-Algorithmus berechnet. Kommt in allen deutschen Steuer-, Beschäftigungs- und Finanzdokumenten vor.
Personalausweisnummer: Format LNNNNNNNC (1 Buchstabe + 8 Ziffern + 1 Prüfzeichen). Das Prüfzeichen ergibt sich aus einem gewichteten Summenalgorithmus. Jeder deutsche Staatsbürger und jeder EU-Bürger mit Wohnsitz in Deutschland hat eine Personalausweisnummer.
Sozialversicherungsnummer (SV-Nummer): Format NNDDMMYYAAAA (2-stellige Gebietskennziffer + Geburtsdatum + 2 Buchstaben des Nachnamens + Prüfziffer). Wird in Beschäftigungs- und Rentenunterlagen verwendet.
Deutsche IBAN: Format DE + 2 Prüfziffern + 8-stellige Bankleitzahl (BLZ) + 10-stellige Kontonummer. Neben der IBAN-Mod-97-Prüfung ist auch das BLZ-Format zu validieren.
Krankenversicherungsnummer (KVNr): 10-stellige Nummer (1 Buchstabe + 9 Ziffern). Der Buchstabe kennzeichnet den Versicherer; die Ziffern enthalten eine Prüfziffer.
Die 65-%-Tool-Lücke
Laut BfDI-Erhebung 2024 nutzen 65 % der deutschen Unternehmen PII-Tools mit mangelhafter Deutschunterstützung. Konkrete Schwachstellen:
Steuer-ID-Erkennung: Muster werden ohne Prüfziffervalidierung abgeglichen. Das erzeugt viele Falschpositive bei beliebigen 11-stelligen Zahlenfolgen in deutschen Dokumenten.
Personalausweis-Erkennung: Fehler treten auf, wenn das Format ohne explizite Bezeichnung „Personalausweis" erscheint. Die kontextuelle Erkennung erfordert deutschsprachiges NER, um den Dokumenttyp korrekt zu bestimmen.
Deutsche Namenserkennung: Auf englischsprachigen Texten trainierte NLP-Modelle erkennen deutsche Namen schlecht. Besonders betroffen: zusammengesetzte Namen (Hans-Wilhelm, Anna-Katharina) und Umlaute (Müller, Schröder, Böhm).
Deutsche Adressformate: Straße, Platz, Weg und Gasse unterscheiden sich strukturell von englischen Adressformaten. Englische Parser produzieren bei deutschen Adressen systematische Fehler.
Der Compliance-Standard für BfDI, BayLDA und andere deutsche Datenschutzbehörden lautet: deutschsprachiges NER (spaCy de_core_news oder gleichwertig), Steuer-ID- und Personalausweis-Erkennung mit Prüfsummenvalidierung, SVNR-Unterstützung für österreichische Dokumente und AHV-Nummer-Unterstützung für Schweizer Dokumente.
Mehr zu mehrsprachigen Erkennungsproblemen findet sich im Leitfaden zur mehrsprachigen PII-Erkennung für DSGVO-Compliance. Technische Durchsetzungsschwerpunkte der BfDI sind im technischen BfDI-Leitfaden für deutsche Unternehmen dokumentiert. Zu deutschen nationalen Steuer-IDs und EU-weiten Identifikatoren siehe den Leitfaden zur EU-Steuer-ID-PII-Erkennung.