gms | German Medical Science

SMITH Science Day 2022

23.11.2022, Aachen

Privatsphärenschützende Datenverknüpfung in verteilten Analysen mit dem PHT

Meeting Abstract

  • Maximilian Jugl - Abteilung Medical Data Science, Medizininformatikzentrum Leipzig, Deutschland
  • Sascha Welten - Lehrstuhl Informatik 5, RWTH Aachen, Deutschland
  • Yongli Mou - Lehrstuhl Informatik 5, RWTH Aachen, Deutschland
  • Yeliz Ucer Yediel - Abteilung Data Science und Künstliche Intelligenz, Fraunhofer FIT, Sankt Augustin, Deutschland
  • Oya Beyan - Abteilung Data Science und Künstliche Intelligenz, Fraunhofer FIT, Sankt Augustin, Deutschland
  • Ulrich Sax - Institut für Medizinische Informatik, Universitätsmedizin Göttingen, Deutschland
  • Toralf Kirsten - Abteilung Medical Data Science, Medizininformatikzentrum Leipzig, Deutschland

SMITH Science Day 2022. Aachen, 23.-23.11.2022. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocP31

doi: 10.3205/22smith42, urn:nbn:de:0183-22smith426

Published: January 31, 2023

© 2023 Jugl et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung und Zielstellung: Durch die Generierung von Patienten- und medizinischen Daten an mehreren Standorten steht die medizinische Datenanalyse vor Herausforderungen, die mit verteilten Datensätzen einhergehen. Stetig wachsende Anforderungen an den Schutz personenbezogener Daten schränken deren Nutzung ein. Der Ansatz verteilter Analysen rückt somit in den Vordergrund. Eine Plattform, welche solche verteilten Analysen realisiert, ist die PADME-Infrastruktur, welche das Konzept des Personal Health Train (PHT) implementiert [1]. Im PHT werden Orte mit Datenquellen als Stationen bezeichnet, zwischen denen Züge mit Analyseaufgaben verkehren. Gesteuert werden diese über eine Central Station (CS), an der ein Datenanalyst Züge an ausgewählte Stationen entsenden kann.

In Datenanalysen können Dubletten statistische Ergebnisse verzerren. Vor allem in verteilten Analysen sind diese schwer zu identifizieren. Wir präsentieren einen Ansatz zur Datenverknüpfung auf verteilten Datensätzen mit dem PHT, um stationsübergreifend Dubletten zu identifizieren.

Methoden: Für die Identifikation von Dubletten greifen wir auf bewährte Verfahren der Record Linkage zurück. Insbesondere die Methoden der PPRL ermöglichen eine sichere Verknüpfung von Datensätzen in unterschiedlichen Datenbeständen. Um PPRL in den PHT zu integrieren, erweitern wir die PHT-Infrastruktur um eine Reihe webbasierter Dienste. Ein Encoder-Dienst nimmt die Vorverarbeitung und Maskierung von IDATs vor. Für jeden Datensatz liegt anschließend ein Bitvektor vor. Das Verfahren basiert auf der Verwendung von Bloomfiltern, wobei Attribute eines Datensatzes nach ihrer Trennschärfe gewichtet werden [2], [3]. Ein Resolver-Dienst löst Pseudonyme, die in den Patientendaten verwendet werden, mithilfe eines MPIs vor Ort auf und sendet die somit erhaltenen Daten an den Encoder-Dienst. Weiterhin sendet er die maskierten Daten und fragt die Ergebnisse von der zuständigen Trust Unit ab. Resolver- und Encoder-Dienst werden neben der Stations-Software seitens der teilnehmenden Stationen bereitgestellt.

Eine externe Central Linkage Unit ermöglicht PPRL über mehrere Stationen hinweg. Sie umfasst einen Broker-Service, welcher sogenannte Match-Sessions organisiert. Stationen senden ihre Bitvektoren unter der Kennung einer Match-Session zu. Ein Broker-Dienst nimmt diese entgegen und führt im Hintergrund die Datenverknüpfung durch. Die Berechnung der Ähnlichkeit zwischen Bitvektorpaaren wird von einem Match-Dienst übernommen. Übereinstimmungen werden anschließend vom Broker-Dienst gespeichert und den jeweiligen Stationen bereitgestellt.

Die Ausführung eines PPRL-Durchlaufs erfolgt in zwei Phasen. Zuvor erstellt der Datenanalyst am CS einen neuen Zug und wählt die teilnehmenden Stationen aus. Die Parameter für die Datenvorverarbeitung und -maskierung, sowie die Kennung der Match-Session werden bei der Instanziierung übergeben. In der ersten Phase übergeben die jeweiligen Administratoren an der Station Links zu einer Liste von Pseudonymen und zum Aufrufen des Resolver-Dienstes. Nach der ersten Runde haben alle Stationen ihre IDATs in maskierter Form an die Central Linkage Unit übergeben. Nach dem Abschluss der Datenverknüpfung beginnt die zweite Phase. Erneut ruft der Zug den Resolver-Dienst an jeder teilnehmenden Station auf, welcher Ergebnisse von der Central Linkage Unit abfragt und in pseudonymisierter Form an den Zug zurückgibt. Somit kann an jeder Station entschieden werden, ob doppelte Datensätze unter bestimmten Pseudonymen für eine anschließende Datenanalyse zurückgehalten, eingebunden oder anderweitig verarbeitet werden (siehe Abbildung 1[Abb. 1]).

Ergebnisse: Wir haben die Funktion des beschriebenen Verfahrens an zwei Datensätzen evaluiert: einem Beispieldatensatz von CORD zur „Private Set Intersection“ und einem synthetischen Datensatz, welcher Vor- und Nachname, Geburtsdatum, Geschlecht und Wohnort aus öffentlichen deutschen Datenquellen umfasst. Letzterer wurde um typografische Fehler mithilfe des GeCo-Frameworks erweitert, um die Fehlerresistenz unseres Verfahrens zu validieren [4]. Wir stellten einen maximalen F1-Score von je 100% und 99,7% fest. Somit erreichen wir die gleichen Ergebnisse wie bei einer zentralisierten Datenverknüpfung mit den gleichen Techniken.

Diskussion: Wir haben ein Verfahren vorgestellt, um PPRL auf verteilten Datensätzen mit dem PHT inkrementell durchzuführen. Die Verarbeitung der zu verknüpfenden Daten und die Aggregation der Ergebnisse geschieht in zwei voneinander getrennten Phasen. Aufbauend auf die Dublettenerkennung werden wir uns zukünftig mit Strategien der Duplicate Elimination und Entity Consolidation beschäftigen.

In unserem Verfahren gehen wir von einer Central Linkage Unit als zentralen Akteur aus, der von allen Stationen vertraut wird. In diesem Fall ist es dem Datenanalysten, dem Stationsadministrator und dem Betreiber der Central Linkage Unit nicht möglich, auf die IDATs der MPIs zurückzuschließen. Es existieren Angriffe auf Bloomfilter zur Wiedererkennung eingefügter Daten, jedoch sind diese mit unseren Sicherheitsvorkehrungen auch mit hohem rechnerischem Aufwand nur schwer ausführbar [5].


Literatur

1.
Welten S, Mou Y, Neumann L, Jaberansary M, Yediel Ucer Y, Kirsten T, Decker S, Beyan O. A privacy-preserving distributed analytics platform for health care data. Methods Inf Med. 2022 Jun;61(S 01):e1-11. DOI: 10.1055/s-0041-1740564 External link
2.
Vatsalan D, Christen P, O’Keefe CM, Verykios VS. An evaluation framework for privacy-preserving record linkage. Journal of Privacy and Confidentiality [Internet]. 2014 Jun 1;6(1). DOI: 10.29012/jpc.v6i1.636 External link
3.
Schnell R, Bachteler T, Reiher J. Privacy-preserving record linkage using Bloom filters. BMC Med Inform Decis Mak. 2009 Aug 25;9:41. DOI: 10.1186/1472-6947-9-41 External link
4.
Tran KN, Vatsalan D, Christen P. GeCo: An online personal data generator and corruptor. CIKM'13: 22nd ACM International Conference on Information and Knowledge Management; 2013 Oct 27-Nov 1; San Francisco, USA. New York, USA: Association for Computing Machinery; 2013. p. 2473–6. DOI: 10.1145/2505515.2508207 External link
5.
Christen P, Schnell R, Vatsalan D, Ranbaduge T. Efficient cryptanalysis of Bloom Filters for privacy-preserving record linkage. In: Kim J, Shim K, Cao L, Lee JG, Lin X, Moon YS, eds. Advances in Knowledge Discovery and Data Mining. Cham: Springer International Publishing; 2017. p. 628–40.