gms | German Medical Science

GMDS 2013: 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

01. - 05.09.2013, Lübeck

Umsetzung einer datenschutzkonformen Cloud-Architektur zur Nutzung strukturierter und freitextlicher Daten

Meeting Abstract

  • Martin Sedlmayr - Friedrich-Alexander Universität Erlangen-Nürnberg, Erlangen, DE
  • Ines Leb - Friedrich-Alexander Universität Erlangen-Nürnberg, Erlangen, DE
  • Lena Griebel - Friedrich-Alexander Universität Erlangen-Nürnberg, Erlangen, DE
  • Julian Laufer - RHÖN-KLINIKUM AG, Bad Neustadt/Saale, DE
  • Kurt Marquardt - RHÖN-KLINIKUM AG, Bad Neustadt/Saale, DE
  • Philipp Daumke - Averbis GmbH, Freiburg, DE
  • Hans-Ulrich Prokosch - Friedrich-Alexander Universität Erlangen-Nürnberg, Erlangen, DE

GMDS 2013. 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Lübeck, 01.-05.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocAbstr.117

doi: 10.3205/13gmds059, urn:nbn:de:0183-13gmds0599

Published: August 27, 2013

© 2013 Sedlmayr et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung: Klinische Daten werden in den letzten Jahren zunehmend für Zwecke jenseits der unmittelbaren Versorgung wiederverwendet [1], [2]. Allerdings liegen viele Informationen in unstrukturierter Form, beispielsweise als Arztbriefe vor und können daher nicht automatisiert ausgewertet werden. Natural Language Processing ermöglicht solche Textinformationen semantisch zu erschließen. Um die dafür notwendigen Computerressourcen dynamisch zur Verfügung zu stellen, bietet sich Cloud-Computing [3] an, sowohl als Infrastruktur als auch als Software as a Service, wobei immer wieder benötigte Funktionen bedarfsgerecht zur Verfügung stehen. Insbesondere bei nicht-privaten Clouds ist der Datenschutz eine große Herausforderung [4]. Ein Lösungsansatz zur datenschutzkonformen Erschließung sowohl strukturierter als auch unstrukturierter Daten wird im Projekt cloud4health realisiert. Dabei werden etablierte Werkzeuge der Sekundärnutzung medizinischer Routinedaten (z.B. Datawarehousing, Datamining) um Textanalysewerkzeuge ergänzt und konform zu den besonderen Anforderungen des deutschen Datenschutzes in die Cloud verlagert.

Methoden: Die Architektur von cloud4health wurde in mehreren Iterationen mit Ärzten, Forschern, Technikern und Datenschützern entwickelt. Zunächst wurden die wertschöpfenden Prozesse erhoben und auch die Stakeholder des Prozesses und ihre Interessen identifiziert. Die funktionalen und nicht-funktionalen Anforderungen wurden diskutiert und mit externen Partnern validiert. Die cloud4health-Architektur zielt auf eine Integration von strukturierten und unstrukturierten Daten aus unterschiedlichen Institutionen in eine zentrale Datenbank. Dafür wird soweit wie möglich auf bereits existierende Erfahrungen und Werkzeuge zurückgegriffen (z.B. [1], [3], [5]).

Ergebnisse: Die Architektur lässt sich in drei Bereiche einteilen:

  • Lokale Services: Erschließung und Deidentifizierung (Anonymisierung, Pseudonymisierung) der Rohdaten bei jedem Datenlieferanten vor Ort durch einen ETL-Prozess, der in einer private Cloud stattfinden kann
  • Textmining Cloud: Annotation der deidentifizierten Freitexte (Textmining) in einer (public) Cloud und Rückgabe strukturierter Ergebnisse an Lieferanten
  • cloud4health-Studienportal: Integration der Daten mehrerer Lieferanten in einem Studienportal, das in einer geschützten Cloud sowohl Services zum Export der Daten als auch zur Auswertung (z.B. Datamining) zur Verfügung stellt

Die Architektur ist bezüglich der Skalierbarkeit und des Datenschutzes flexibel. So können die einzelnen Bereiche sowohl in einer privaten als auch einen öffentlichen Cloud betrieben werden. Weiterhin können die Daten pseudonymisiert oder anonymisiert werden, um die jeweiligen Datenschutzbestimmungen zu erfüllen [4]. Bis März 2013 wurde ein erster vollständiger Prototyp implementiert, der die Infrastruktur für die Realisierung eines ersten Anwendungsfalls liefert. In diesem werden Daten in ein Register zu Hüftprothesenimplantationen geladen, die sowohl aus der strukturierten Dokumentation als auch aus freitextlichen OP-Berichten stammen (z.B. Revisionsgrund, Methode). Bisher wurden hierbei ca. 550 Arztbriefe und 580 OP-Berichte von ca. 250 Patienten annotiert.

Diskussion: Die Sekundärnutzung klinischer Daten zu Forschungszwecken ist grundsätzlich auch Ziel anderer Projekte, welche sich je nach Forschungsschwerpunkt u.a. mit der Identifikation von Patientenkollektiven auf Basis unstrukturierter Daten [6], den Cloud-Technologien [3] oder den Zugangsmöglichkeiten über webbasierte Frontends [7] befassen. Jedoch verbindet keines die einzelnen Komponenten zu einer gemeinsamen Architektur. Durch den Prototyp konnte gezeigt werden, dass das entwickelte System die automatische Überführung von strukturierten und unstrukturierten Daten gemäß der Datenschutzbestimmungen in ein zentrales Studienportal ermöglicht. Drei weitere Anwendungsszenarien werden im Projektverlauf noch umgesetzt.

Danksagung: Das Projekt cloud4health wird vom Bundesministerium für Wirtschaft und Technologie im Rahmen des Schwerpunkts Trusted Cloud gefördert (FKZ 01MD11009).


Literatur

1.
Hruby GW, McKiernan J, Bakken S, Weng C. A centralized research data repository enhances retrospective outcomes research capacity: a case report. Journal of American Medical Informatics Association. 2012; 0:1-5.
2.
Li Z, Wen J, Zhang X, Wu C, Li C, Li Z, Liu L. ClinData Express - A Metadata Driven Clinical Research Data Management System for Secondary Use of Clinical Data. AMIA Annu Symp Proc. 2012: 552-7.
3.
Chard KM, Russell M, Lussier YA, Mendonca EA, Silverstein JC. A cloud-based approach to medical NLP. AMIA Annu Symp Proc. 2011: 207-216.
4.
Glock J, Herold R, Pommerening K. Personen-Identifikatoren in medizinischen Forschungsnetzen: Evaluation des Personen-Identifikator-Generators im Kompetenznetz Pädiatrische Onkologie und Hämatologie. GMS Med Inform Biom Epidemiol. 2006;2(2):Doc06.
5.
Scott DJ, Lee J, Silva I, Park S, Moody GB, Celi LA, Mark RG, et al. Accessing the public MIMIC-II intensive care relational database for clinical research. BMC Medical Informatics and Decision Making. 2013: 13:9.
6.
Weber GM, Murphy SN, McMurry AJ, MacFadden D, Nigrin DJ, Churchill S, Kohane IS. The Shared Health Research Information Network (SHRINE): A Prototype Federated Query Tool for Clinical Data Repositories. Journal of the American Medical Informatics Association. 2009;16(5): 624-630.
7.
Hurdle JF, Haroldsen SC, Hammer A, Spigle C, Fraser AM, Courdy SJ. Identifying clinical/translational research cohorts: ascertainment via querying an integrated multi-source database. Journal of American Medical Informatics Association. 2012; 00:1-8.