gms | German Medical Science

64. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

08. - 11.09.2019, Dortmund

Erweiterung des MIRACUM Datenqualitäts-Frameworks für das OMOP-Datenmodell

Meeting Abstract

  • Franziska Bathelt - Institut für Medizinische Informatik und Biometrie, Medizinische Fakultät Carl Gustav Carus der Technischen Universität Dresden, Dresden, Germany
  • Ines Reinecke - Institut für Medizinische Informatik und Biometrie, Medizinische Fakultät Carl Gustav Carus der Technischen Universität Dresden, Dresden, Germany
  • Michéle Kümmel - Institut für Medizinische Informatik und Biometrie, Medizinische Fakultät Carl Gustav Carus der Technischen Universität Dresden, Dresden, Germany
  • Azadeh Nassirian - Institut für Medizinische Informatik und Biometrie, Medizinische Fakultät Carl Gustav Carus der Technischen Universität Dresden, Dresden, Germany
  • Martin Sedlmayr - Institut für Medizinische Informatik und Biometrie, Medizinische Fakultät Carl Gustav Carus der Technischen Universität Dresden, Dresden, Germany
  • Lorenz Kapsner - Universitätsklinikum Erlangen, Medizinisches Zentrum für Informations- und Kommunikationstechnik (MIK), Erlangen, Germany

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 64. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Dortmund, 08.-11.09.2019. Düsseldorf: German Medical Science GMS Publishing House; 2019. DocAbstr. 217

doi: 10.3205/19gmds027, urn:nbn:de:0183-19gmds0277

Published: September 6, 2019

© 2019 Bathelt et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Datenintegration und -aufbereitung zur Sekundärnutzung in der medizinischen Forschung gewinnt aufgrund steigendender Patientenzahlen zunehmend an Bedeutung. Das vom Bundesministerium für Bildung und Forschung im Rahmen der Medizininformatik-Initiative geförderte Konsortium MIRACUM [1] einigte sich daher unter anderem auf die einheitliche Repräsentation von medizinischen Forschungsdaten im OMOP Common Data Model (OMOP CDM). Im Zuge dessen entstand eine initiale ETL-Strecke, um einen Teil des Kerndatensatzes in das OMOP CDM zu überführen [2]. Die Zuverlässigkeit der im OMOP CDM repräsentierten Daten ist direkt abhängig von der Validität der ETL-Strecke. Um diese Validität systematisch zu überprüfen, wird ein Tool zur automatisierten Datenqualitätsanalyse (DQA-Tool) vorgestellt.

Methode: Das in MIRACUM für das i2b2-Forschungsdatenrepository mit GNU R [3] entwickelte Datenqualitäts-Framework [4] wurde auf das OMOP CDM angepasst und erweitert. Damit wird der in [2] beschriebene ETL-Prozess in den folgenden Schritten [5] automatisiert getestet:

  • „Data Completeness”: alle Quelldaten sind vollständig im Zielsystem. Die Überprüfung erfolgt durch einen Vergleich der Anzahl der vorkommenden Datenelemente.
  • „Data Validation“: alle Datenwerte des Quellsystems entsprechen denen im Zielsystem. Die Überprüfung erfolgt durch einen Vergleich der Ausprägungen der Datenelemente.
  • „Data Correctness“: alle Quelldaten sind (semantisch) richtig im Zielsystem. Die Überprüfung erfolgt durch einen Vergleich der assoziierten Datenelemente zwischen Quell- und Zielsystem.
  • „Metadata Testing“: alle Metadaten bleiben bei der Transformation erhalten. Die Überprüfung erfolgt durch einen Vergleich der Metadaten der Datenelemente im Quell- und Zielsystem.
  • „Syntax Testing“: alle Daten des Zielsystems enthalten keine ungültigen Zeichen. Die Überprüfung erfolgt durch eine automatisierte Analyse aller Datenwerte im Zielsystem.

Die Umsetzung der Schritte 1. und 2. ist bereits unter Verwendung der SCRUM Methode [6] erfolgt. Die Korrektheit der automatischen Tests wurde durch einen manuellen Vergleich validiert. Dazu wurden automatisch ermittelte Abweichungen zwischen Quell- und Zieldaten händisch überprüft und innerhalb der Autorengruppe diskutiert. Die Schritte 3. bis 5. befinden sich in der Umsetzung. Dafür erfolgt die Definition einer semantischen Analyse sowie die Nutzung der OHDSI-Tools Achilles und Achilles Heel [7]. Die automatisch ermittelten Resultate werden manuell unter Einbezug medizinischer Expertise überprüft.

Ergebnisse: Mittels automatisierter Testverfahren wurden bereits 21 Einzelwertprüfungen und acht Plausibilitätsprüfungen durchgeführt. Dabei waren acht Vergleichswerte der Einzelprüfungen signifikant unterschiedlich zwischen den Quelldateien und OMOP CDM.

Die Prüfungen wurden um eine semantische Analyse zur Überprüfung der korrekten Assoziation von Patienten und Fällen zwischen Quell- und Zielsystem angereichert. Es konnte ermittelt werden, dass in einigen Fällen die Zahl der mit einem Patienten assoziierten Fälle im Quellsystem deutlich höher ist als im OMOP CDM.

Diskussion und Ausblick: Durch die automatisierte Analyse wurden Unregelmäßigkeiten in der ETL-Strecke ermittelt. Die Implementierung des DQA-Tools erfolgte unabhängig von der Umsetzung der ETL-Strecke, um eine objektive Betrachtung zu ermöglichen. Die Validierung des DQA-Tools erfolgt derzeit händisch. Dies soll durch die Bereitstellung automatisierter Funktionstests behoben werden. Für die aktuell laufenden Umsetzungen (Schritte 3.-5.) wird das DQA-Tool bis zur GMDS um Achilles und Achilles Heel [7] sowie um weitere semantische Tests ergänzt.

Das betrachtete Verfahren ist bisher eine erste, nicht vollumfängliche Umsetzung. Um die Korrektheit eines ETL-Prozesses validieren zu können, sollten weitere Testverfahren (Migrationsprüfung, Änderungsprüfung) implementiert werden [8].

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Prokosch HU, Acker T, Bernarding J, Binder H, Boeker M, Boerries M, Daumke P, Ganslandt T, Hesser J, Höning G, Neumaier M. MIRACUM: medical informatics in research and care in University medicine. Methods of information in medicine. 2018 Jul;57(S 01):e82-91.
2.
Maier C, Lang L, Storf H, Vormstein P, Bieber R, Bernarding J, Herrmann T, Haverkamp C, Horki P, Laufer J, Berger F. Towards implementation of OMOP in a German university hospital consortium. Applied clinical informatics. 2018 Jan;9(01):054-61.
3.
The R Foundation. The R Project for Statistical Computing. 2019 [Accessed 01 04 2019]. Available from: https://www.r-project.org/ External link
4.
Kapsner LA, Kampf MO, Seuchter SA, Kamdje-Wabo G, Gradinger T, Ganslandt T, Mate S, Gruendner J, Kraska D, Prokosch HU. Moving Towards an EHR Data Quality Framework. The MIRACUM Approach. submitted.
5.
The ETL Testing Process and A Useful Checklist. 2018 Jan 21. [Accessed 2019 April 01] Available from: https://medium.com/@shivambigdata/the-etl-testing-process-and-a-useful-checklist-8aab6f777b19 External link
6.
it-agile GmbH. Einstieg und Überblick - SCRUM. [Accessed 2019 May 24]. Available from: https://www.it-agile.de/wissen/einstieg-und-ueberblick/scrum/ External link
7.
OHDSI. ACHILLES for data characterization. 2019 [Accessed 2019 April 01]. Available from: https://www.ohdsi.org/analytic-tools/achilles-for-data-characterization/ External link
8.
Talend. ETL-Tests: Ein Überblick. 2019 [Accessed 01 April 2019]. Available from: https://de.talend.com/resources/etl-testing/ External link