gms | German Medical Science

66. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS), 12. Jahreskongress der Technologie- und Methodenplattform für die vernetzte medizinische Forschung e. V. (TMF)

26. - 30.09.2021, online

ODM-DQA-Reporter: Ein generischer Ansatz für einen Bericht zur Datenqualität von medizinischen Forschungsdaten im ODM-Standard

Meeting Abstract

  • Aysenur Süer - Institut für Medizinische Informatik, Westfälische Wilhelms-Universität Münster, Münster, Germany
  • Sarah Riepenhausen - Institut für Medizinische Informatik, Westfälische Wilhelms-Universität Münster, Münster, Germany
  • Michael Storck - Institut für Medizinische Informatik, Westfälische Wilhelms-Universität Münster, Münster, Germany
  • Leonard Greulich - Institut für Medizinische Informatik, Westfälische Wilhelms-Universität Münster, Münster, Germany
  • Claudia Zeidler - Klinik für Hautkrankheiten und Kompetenzzentrum chronischer Pruritus (KCP), Universitätsklinikum Münster, Münster, Germany
  • Sonja Ständer - Klinik für Hautkrankheiten und Kompetenzzentrum chronischer Pruritus (KCP), Universitätsklinikum Münster, Münster, Germany
  • Martin Dugas - Institut für Medizinische Informatik, Westfälische Wilhelms-Universität Münster, Münster, Germany

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 66. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS), 12. Jahreskongress der Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.V. (TMF). sine loco [digital], 26.-30.09.2021. Düsseldorf: German Medical Science GMS Publishing House; 2021. DocAbstr. 143

doi: 10.3205/21gmds013, urn:nbn:de:0183-21gmds0139

Published: September 24, 2021

© 2021 Süer et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Die Sicherstellung einer hohen Datenqualität ist eine regulatorische Anforderung und mit hohem Aufwand und Kosten verbunden [1], [2]. Besonders bei multizentrischen Studien steigt der Aufwand stark [3]. Eine suboptimale Datenqualität kann falsche Forschungsergebnisse liefern und damit verbunden hohe Kosten nach sich ziehen [3].

Eine Vielzahl von unterschiedlichen Datenqualitätsindikatoren können zur Messung herangezogen werden [1], [2], [4]. Hierbei werden Vollständigkeit und Korrektheit am häufigsten untersucht [1]. Im Rahmen dieser Arbeit konzentrieren wir uns auf die Überprüfung der Vollständigkeit und syntaktischen Korrektheit von medizinischen Forschungsdaten im Operational Data Model (ODM) Standard. Ziel ist es, einen generischen Ansatz zur grundlegenden Beurteilung und kontinuierlichen Überwachung der Datenqualität mit einem standardisierten Bericht zu ermöglichen.

Methodik: Das Operational Data Model (ODM) des Clinical Data Interchange Standard Consortiums (CDISC) ist ein FDA-konformer, XML-basierter Standard zur Studiendefinition und -archivierung [5] und ermöglicht eine strukturierte Erfassung von medizinischen Forschungsdaten. Dieser Standard wird von elektronischen Datenerfassungssystemen wie x4T-EDC [6] und REDCap [7] als Import- und Exportformat akzeptiert.

Eine Reihe von Tools zur Datenqualitätsanalyse wie das auf OMOP Common Data Model basierende Achilles Heel [8] und PEDSnet Data-Quality-Analysis [9] wurden analysiert Daneben wurden generische, R-basierte Methoden [10] wie mosaicQA für epidemiologische Forschungszwecke [11] und MOQA [12] untersucht. Um valide Datenqualitätsberichte für unterschiedliche Studiendaten im ODM-Format erstellen zu können, wurde systematisch eine R-basierte generische Lösung entwickelt, der sogenannte ODM-DQA-Reporter. Dafür wurden zunächst spezifische R-Skripte zur Beurteilung von Testdaten unterschiedlicher Stichprobengrößen im ODM-Format entwickelt und anschließend durch Parametrisierung verallgemeinert. Das Einlesen der Daten wurde aus Performanzgründen in Java umgesetzt. Um die Einschränkung auf bestimmte Teile des Datensatzes (z. B. Formulare oder Probanden) zu ermöglichen, wurden Gruppierungsfunktionen implementiert. Die Ergebnisse werden in tabellarischer Form mit Inline-Charts visualisiert, um eine übersichtliche Darstellung auch bei großen Datensätzen zu ermöglichen. Ferner wurde die automatisierte Generierung eines Qualitätsberichtes realisiert. Zur Hervorhebung der Ergebnisse wurde die Ampeldarstellung genutzt. Als Nachweis für den generischen Ansatz wurde die Datenqualität von drei realen Datensätzen untersucht, die im Rahmen der Projekte „Translational Pruritus Research“ (N=639), „Registry for Primary Ciliary Dyskinesia“ (N=1475) und „Pruritus Research Database“ (N=10389) gesammelt wurden.

Ergebnisse: Der entwickelte generische Ansatz ermöglicht eine automatisierte Erstellung eines Datenqualitätsberichtes im Format PDF auf Basis des ODM Standards. Es können neben deskriptiven Statistiken zur Vollständigkeit und syntaktischen Korrektheit auch ein Metadatenwörterbuch und Grafiken zum Rekrutierungsverlauf in den Bericht integriert werden. Gruppierungsfunktionen ermöglichen die Einschränkung auf Teile des Datensatzes. Dies kann insbesondere bei multizentrischen Studien oder zur Überprüfung von Einschlusskriterien eingesetzt werden Ferner konnten die realen Datensätze erfolgreich analysiert und Berichte generiert werden.

Diskussion: Aktuell liegt der Fokus des ODM-DQA-Reporters auf den Datenqualitätsindikatoren Vollständigkeit und syntaktische Korrektheit. Die Ergebnisse werden mithilfe von leicht verständlichen deskriptiven Inline-Charts (z. B. Pie-Chart, Bar-Chart, Boxplot) in Tabellen visualisiert. Die Ampeldarstellung erleichtert den Überblick und hebt besondere Merkmale der Ergebnisse hervor. Die Einbindung weiterer Indikatoren wie Plausibilität und Konsistenz sind in Vorbereitung. Zukünftig wäre die Einbindung des ODM Data Analysis Tool [13] für die automatisierte Generierung von deskriptiven, univariaten Statistiken oder die Bereitstellung als REDCap-Plugin realisierbar. Zusätzliche kontextspezifische Datenqualitätskontrollen können unter Umständen notwendig sein.

Schlussfolgerung: Im Vergleich zu anderen generischen Lösungen ermöglicht dieser Ansatz eine kontextunabhängige Datenqualitätsbeurteilung sowie den Einsatz ohne zusätzlichen Programmieraufwand.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Weiskopf NG, Weng C. Methods and dimensions of electronic health record data quality assessment: enabling reuse for clinical research. J Am Med Inform Assoc. 2013 Jan 1;20(1):144-51. DOI: 10.1136/amiajnl-2011-000681 External link
2.
Kahn MG, Brown JS, Chun AT, Davidson BN, Meeker D, Ryan PB, et al. Transparent reporting of data quality in distributed data networks. EGEMS (Wash DC). 2015 Mar 23;3(1):1052. DOI: 10.13063/2327-9214.1052 External link
3.
Juárez D, Schmidt EE, Stahl-Toyota S, Ückert F, Lablans M. A Generic Method and Implementation to Evaluate and Improve Data Quality in Distributed Research Networks. Methods Inf Med. 2019 Sep;58(2-03):86-93. DOI: 10.1055/s-0039-1693685 External link
4.
Weiskopf NG, Bakken S, Hripcsak G, Weng C. A Data Quality Assessment Guideline for Electronic Health Record Data Reuse. EGEMS (Wash DC). 2017 Sep 4;5(1):14. DOI: 10.5334/egems.218 External link
5.
Clinical Data Interchange Standards Consortium. ODM-XML [Internet]. Austin, Texas, USA: Clinical Data Interchange Standards Consortium; 2010 [cited 2021 Apr 30]. Available from: https://www.cdisc.org/standards/data-exchange/odm External link
6.
Bruland P, Forster C, Breil B, Ständer S, Dugas M, Fritz F. Does single-source create an added value? Evaluating the impact of introducing x4T into the clinical routine on workflow modifications, data quality and cost-benefit. Int J Med Inform. 2014 Dec;83(12):915-28. DOI: 10.1016/j.ijmedinf.2014.08.007 External link
7.
Harris PA, Taylor R, Thielke R, Payne J, Gonzalez N, Conde JG. Research electronic data capture (REDCap) - a metadata-driven methodology and workflow process for providing translational research informatics support. J Biomed Inform. 2009 Apr;42(2):377-81. DOI: 10.1016/j.jbi.2008.08.010 External link
8.
Huser V, DeFalco FJ, Schuemie M, Ryan PB, Shang N, Velez M, et al. Multisite Evaluation of a Data Quality Tool for Patient-Level Clinical Data Sets. EGEMS (Wash DC). 2016 Nov 30;4(1):1239. DOI: 10.13063/2327-9214.1239 External link
9.
Khare R, Utidjian LH, Razzaghi H, Soucek V, Burrows E, Eckrich D, et al. Design and Refinement of a Data Quality Assessment Workflow for a Large Pediatric Research Network. EGEMS (Wash DC). 2019 Aug 1;7(1):36. DOI: 10.5334/egems.294 External link
10.
R Foundation for Statistical Computing. R: A language and environment for statistical computing [Internet]. Vienna, Austria: R Core Team; 2021 [cited 2021 Apr 30]. Available from: https://www.R-project.org/ External link
11.
Bialke M, Rau H, Schwaneberg T, Walk R, Bahls T, Hoffmann W. mosaicQA - A General Approach to Facilitate Basic Data Quality Assurance for Epidemiological Research. Methods Inf Med. 2017 May 29;56(7):e67-e73. DOI: 10.3414/ME16-01-0123 External link
12.
Institut für Community Medicine, Abt. VC, Universitätsmedizin Greifswald. MOQA [Internet]. ToolPool Gesundheitsforschung, IT-Werkzeuge und Information. Berlin, Germany: TMF; 2015 Sep 18 [updated 2020 Apr 30, cited 2021 Apr 30]. Available from: https://www.toolpool-gesundheitsforschung.de/produkte/moqa External link
13.
Brix TJ, Bruland P, Sarfraz S, Ernsting J, Neuhaus P, Storck M, et al. ODM Data Analysis-A tool for the automatic validation, monitoring and generation of generic descriptive statistics of patient data. PLoS One. 2018 Jun 22;13(6):e0199242. DOI: 10.1371/journal.pone.0199242 External link