Personal Health Train: Advancing Distributed Machine Learning in Healthcare with Data Privacy and Security

DSpace Repositorium (Manakin basiert)


Aufrufstatistik
Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/164132
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1641321
http://dx.doi.org/10.15496/publikation-105461
Dokumentart: Dissertation
Erscheinungsdatum: 2025-04-10
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Pfeifer, Nico (Prof. Dr.)
Tag der mündl. Prüfung: 2025-03-05
Freie Schlagwörter: Verteilte Analyse
Verteiltes Maschinelles Lernen
Datensicherheit
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en
Zur Langanzeige

Inhaltszusammenfassung:

Die Übertragung von Daten zwischen verschiedenen Krankenhäusern ist oft eingeschränkt und die föderierte Analyse von klinischen Daten ist eine gute Alternative. Bestehende föderierte Analyse-Plattformen sind oft eingeschränkt in Bezug auf die Art der zu verarbeitenden Einga- bedaten oder die durchführbaren Analysemethoden. Im Paradigma des Personal Health Trains reist der Analysealgorithmus (in einem ’Zug’ verpackt) zwischen mehreren Standorten (z.B. Krankenhäusern - sogenannten ’Bahnhöfen’), die die Daten in ihrer geschützten Infrastruktur vorhalten, und überträgt nur Ergebnisse anstelle der Daten selbst. Innerhalb der etablierten Infrastruktur der deutschen Medizininformatik-Initiative werden strukturierte pseudonymisier- te klinische Daten der Patienten in FHIR-Servern an Datenintegrationszentren bereitgestellt, basierend auf den HL7/FHIR-Profilen des deutschen nationalen Kernsatzes. Die Implementierung von Zügen als gesicherte Container ermöglicht es, komplexe Da- tenanalyse Arbeitsabläufe zwischen Standorten zu transportieren, z.B. Genomanalysen oder Deep-Learning-Algorithmen; Analysemethoden, die im Allgemeinen nicht leicht anwendbar sind. Wir präsentieren PHT-meDIC, eine produktiv eingesetzte, interoperable, Open-Source- Implementierung des Personal Health Train-Paradigmas. Der Anwendungsbereich für diese Plattform reicht von maschinellen Lernalgorithmen bis hin zur anspruchsvollen Analyse von Genomen und Bildern mit beliebigen Eingabedaten. Virtualisierung ermöglicht die automati- sierte Bereitstellung komplexer Datenanalyse-Arbeitsabläufe (z.B. Genom oder Bildanalyse) über mehrere Krankenhäuser hinweg in sicherer und skalierbarer Weise. Wir kombinieren verschiedene Open-Source-Drittanbieterdienste mit mehreren eigens entwickelten Diensten. Eine Aufteilung in verschiedene Dienste ermöglicht eine flexible Anpassung und Erweiterung in skalierbarer Form. Wir haben eine ständige Überwachung und konsistente Ausführung von Zügen erreicht und stellen Betriebs-Vorlagendokumente für die Bereitstellung zur Verfügung. In unserem vorgeschlagenen Sicherheitsprotokoll haben Krankenhäuser Pseudo-Identifikatoren innerhalb der Infrastruktur und können nur auf ihren Projektserver zugreifen, wodurch solche Schlussfolgerungsangriffe weniger wahrscheinlich sind. Ergebnisse sind immer verschlüsselt. Nur teilnehmende Standorte und der aktive Benutzer können darauf zugreifen. Manipulationen an Zügen werden in jeder Phase erkannt.

Abstract:

Transferring data between different hospitals is often restricted, and federated analysis of clinical data is a viable alternative. Existing federated analytics frameworks are often limited in the type of input data to process or analysis that can be performed. In the Personal Health Train paradigm, the analysis algorithm (wrapped in a ’train’) travels between multiple sites (e.g., hospitals - so-called ’train stations’), hosting the data in their protected infrastructure, and only transfers results rather than the data. Within the established infrastructure of the German Medical Informatics initiatives, patients’ structured pseudonymized clinical data is stored in FHIR servers at Data Integration Centers based on the HL7/FHIR profiles of the German National Core Data Set. Implementing trains as secured containers enables complex data analysis workflows to travel between sites, i.e., genomics pipelines or deep-learning algorithms - analytic methods that are generally not easily amenable. We present PHT-meDIC, a productively deployed, in- teroperable, open-source implementation of the Personal Health Train paradigm. The scope of applications for this platform ranges from machine learning algorithms to sophisticated omics and image analysis with arbitrary input data. Light-weight virtualization permits the automated deployment of complex data analysis pipelines (e.g., genomics, image analysis) across multiple hospitals in a secure and scalable manner. We combine different open-source third-party services with several custom-developed services. A separation into various services allows flexible adaption and extension in a scalable form. We achieve constant monitoring and persistent execution of trains and are providing governance template documents for de- ployment. In our proposed security protocol, hospitals have pseudo-identifiers within the infrastructure and can only access their repository, so that such inference attacks are less likely. Results are always encrypted at rest. Only participating sites and the submitting user can access them. Manipulation of trains will be detected at any stage. Furthermore, researchers can use additional privacy mechanisms (e.g., Paillier cryptosys- tem). The execution is within an encapsulated environment using project-specific FHIR servers or data warehouses. We successfully deployed the implementation for distributed analyses of large-scale data. Our platform has been extended for interoperability in the Leuko-Expert project with other Medical Informatics Initiative partners’ architecture.

Das Dokument erscheint in: