Verblindete Anonymisierung zur Evaluation von Krebsfrüherkennungsprogrammen

Hintergrund: Die Evaluation bevölkerungsbezogener Früherkennungsprogramme, wie dem deutschen Mammographie-Screening (MSP), erfordert die fallscharfe Verknüpfung von Daten bevölkerungsbezogener Krebsregister und anderen Stellen des Gesundheitswesens. In dieser Disseration wird eine Methode vorgestellt, die ohne individuelle Einwilligung die Verknüpfung solch sensibler Daten im Einklang mit deutschen Datenschutzbestimmungen erlaubt.

Methoden: Das Verfahren kombiniert ein probabilistisches Record-Linkage auf verschlüsselten Identitätsdaten mit einer ‚verblindeten Anonymisierung‘, so dass sämtliche Daten entweder verschlüsselt sind oder einem definierten Anonymitätsmaß genügen. Die Datenquellen verschlüsseln die identifizierenden Merkmale irreversibel in eine Menge Personenkryptogramme, während die Auswertungsdaten in verschiedenen Stufen aggregiert und reversibel verschlüsselt werden. Ein Pseudonymisierungsdienst verschlüsselt die Personenkryptogramme erneut zu Zuordnungsnummern, die dann von einer nachgelagerten Datensammelstelle zur Verknüpfung der Datensätze mithilfe des Record-Linkage genutzt werden. Die ‚verblindete Anonymisierung‘ löst das Problem quasi-identifizierender Merkmale in den Auswertungsdaten. Sie ermöglicht, ohne Einsatz von Klartextdaten, aus den verschlüsselten Aggregationsstufen einen k-anonymen Datensatz zu erstellen. Die geprüft anonymen Auswertungsdaten werden an eine evaluierende Stelle übertragen, dort entschlüsselt und ausgewertet. Dieser Ansatz erlaubt die Erzeugung verschiedener Generalisierungen, wodurch dynamisch die Informationstiefe gegen die Anforderungen des Datenschutzes abgewogen und der Einfluss auf die Auswertbarkeit hervorhoben werden kann.

Ergebnisse: Das Konzept wurde von den deutschen Datenschutzbehörden für die Mortalitätsevaluation des deutschen MSP zugelassen. Dazu wurde einen Prototyp  entwickelt und mit 1,5 Millionen simulierten Datensätzen und realistisch verteilten Identitätsdaten erprobt. Dabei wurden verschiedene Generalisierungen und die resultierenden Unterdrückungsraten berechnet. In der Arbeit werden die Limitierungen des Ansatzes sowie mögliche Verbesserungen wie die l-Diversität und die Reduktion manueller Nachbearbeitungsschritte diskutiert.

Schlussfolgerung: Der vorgestelle Ansatz erlaubt die sichere Verknüpfung von Daten aus bevölkerungsbezogenen Krebsregistern und anderen Einrichtungen. Obwohl einige Limitierungen greifen, erlaubt das Konzept die Evaluation des deutschen MSP und kann für den Einsatz in anderen Projekte generalisiert werden.

Background: The evaluation of population-based screening programs, like the German Mammography Screening Program (MSP), requires to collect and link data from population based cancer registries and other sources of the healthcare system on a case specific-level. This thesis presents a method to link such sensitive data that is compliant with German data protection regulations and does not require written individual consent.

Methods: The method combines a probabilistic record-linkage on encrypted identifying data with a ‘blinded anonymisation’. It ensures that all data either are encrypted or have a defined and measurable degree of anonymity. The data sources use a software to transform plain-text identifying data into a set of irreversibly encrypted person cryptogtams, while the evaluation attributes are aggregated in multiple stages and are reversibly encrypted. A pseudonymisation service encrypts the person cryptograms into record assignment numbers and a downstream data-collecting centre uses them to perform the probabilistic record linkage. The blinded anonymisation solves the problem of quasi-identifiers within the evaluation data. It allows selecting a specific set of the encrypted aggregations to produce a data export with ensured k-anonymity, without any plain-text information. The anonymised evaluation data are finally transferred to an evaluation centre where it is decrypted and analysed. The approach allows creating several of such generalisations, with different resulting suppression rates. This allows to dynamically balance information depth with privacy protection and to highlight how this affects the analysability.

Results: German data protection authorities approved the concept for the evaluation of the impact of the German MSP on breast cancer on mortality. A prototype was implemented and tested with 1.5 million simulated records, containing realistically distributed identifying data. Different generalisations and their respective suppression rates were calculated. In this thesis limitations for large data sets in the cancer registry domain, as well as approaches for further improvements like l-diversity and how to reduce the amount of manual post-processing are beeing discussed.

Conclusion: The approach allows to securely link data from population-based cancer registries and other sources of the healthcare system. Although some limitations exists, it enables the evaluation of the German MSP program and can be generalised for other projects.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten