gms | German Medical Science

MAINZ//2011: 56. GMDS-Jahrestagung und 6. DGEpi-Jahrestagung

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.
Deutsche Gesellschaft für Epidemiologie e. V.

26. - 29.09.2011 in Mainz

Text Mining für eine Datenbank, die strukturierte Beschreibungen nosokomialer Ausbrüche enthält

Meeting Abstract

  • Marco Eckstein - Charité - Universitätsmedizin Berlin, Berlin
  • Doris Weitzel-Kage - Charité - Universitätsmedizin Berlin, Berlin
  • Petra Gastmeier - Charité - Universitätsmedizin Berlin, Berlin
  • Michael Behnke - Charité - Universitätsmedizin Berlin, Berlin

Mainz//2011. 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi). Mainz, 26.-29.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11gmds387

doi: 10.3205/11gmds387, urn:nbn:de:0183-11gmds3876

Published: September 20, 2011

© 2011 Eckstein et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung/Hintergrund: Nosokomiale Ausbrüche können für betroffene Personen und Einrichtungen gravierende Folgen haben. Es ist wichtig, die Ursachen schnell aufzuklären und zu beseitigen, was oftmals zeitaufwändige Untersuchungen erfordert. Publizierte Beschreibungen nosokomialer Ausbrüche sind eine wesentliche Unterstützung beim Ausbruchsmanagement. Die Suche nach relevanter Literatur in Datenbanken wie PubMed, sowie die Extraktion relevanter Angaben wie Erreger oder Übertragungsweg sind aber ebenfalls aufwändig [1].

Outbreak Database [2], [3], [4] ist eine frei zugängliche Datenbank, die strukturierte Informationen zu nosokomialen Ausbrüchen enthält. Sie wird ständig aktualisiert und enthält über 2500 Ausbruchsbeschreibungen. Ziel ist es, neben dem Ausbruchsmanagement auch wissenschaftliches Arbeiten und Lehrtätigkeiten zu unterstützen.

Die formalisierten Ausbruchsbeschreibungen werden i. d. R. erstellt, indem Experten in PubMed gefundene Artikel lesen, nach Relevanz klassifizieren und ggf. darauf basierend strukturierte Informationen manuell extrahieren. Genauigkeit (Precision) und Trefferquote (Recall) der bisher verwendeten Suchanfragen sind unbefriedigend, was zu erhöhtem Aufwand für die Experten oder unerwünschterweise nicht vertretenen Artikeln führt.

Material und Methoden: In einer Diplomarbeit werden automatische Lösungsansätze für die Teilprobleme Klassifikation und Informationsextraktion untersucht.

Der Umfang der bisher gesammelten Informationen über relevante (2658) bzw. nicht relevante (2560) Artikel ermöglicht es, mittels maschinellen Lernens einen automatischen Klassifikator zu entwickeln, der für die zukünftige Suche nach Artikeln verwendet werden kann [5].

Bei der Informationsextraktion [6] beschränkt sich die Arbeit auf die Extraktion der Angaben zu Erregern, betroffenen medizinischen Einrichtungen und dem Land des Ausbruchsgeschehens. Hierzu werden PubMed MeSH Terms und zwei Termidentifikatoren (LINNAEUS [7] und MetaMap [8]) miteinander verglichen. Der Umgang mit unterschiedlichen Vokabularen wird dabei durch den UMLS Metathesaurus [9] ermöglicht, der um Verknüpfungen zum Vokabular von Outbreak Database erweitert wurde. Als Eingabe für die Termidentifikatoren dienen Titel und Abstracts aus PubMed.

Ergebnisse: Das beste Ergebnis bei der Extraktion der Einrichtungen lieferte bisher MetaMap mit 86% Precision und 60% Recall (microaverage). Für die Länderangaben führte die Verwendung von MeSH Terms zum besten Ergebnis, mit 97% Precision und 61% Recall. Mikroorganismen konnten von MetaMap und LINNAEUS gleich gut erkannt werden, mit 63% Precision und 46% Recall, bzw. 57% Precision und 49% Recall.

Diskussion/Schlussfolgerungen: Die Verwendung des erweiterten UMLS Metathesaurus sowie der Umfang der Daten in Outbreak Database haben einen direkten Vergleich von MeSH Terms, MetaMap und LINNAEUS zur Informationsextraktion ermöglicht. Die extrahierten Informationen können verwendet werden, um den Experten Vorschläge anzubieten.

Zwar steht die Evaluation des Klassifikators noch aus, aber der große Umfang an Trainingsbeispielen und Erfolge in anderen Anwendungsgebieten (siehe z. B. [10]) lassen auf gute Ergebnisse hoffen.


Literatur

1.
Zuschneid I, Stamm-Balderjahn S, Hansen S, Groneberg K, Behnke M, Rüden H, Gastmeier P. Outbreak-database. Eine Datenbank für Ausbrüche in medizinischen Einrichtungen. 2005. http://www.dghm.org/texte/Outbreak%20database.pdf External link
2.
Outbreak Database. http://www.outbreak-database.com/ External link
3.
Links related to Outbreak Database. http://www.outbreak-database.com/Links.aspx External link
4.
Vonberg RP, Weitzel-Kage D, Behnke M, Gastmeier P. Worldwide Outbreak Database: the largest collection of nosocomial outbreaks. Infection. 2011:29-34.
5.
Sebastiani F. Machine Learning in Automated Text Categorization. ACM Computing Surveys. 2002:1-47.
6.
Grishman R. Kapitel 30 in The Oxford Handbook of Computational Linguistics. Oxford University Press, USA; 2005.
7.
LINNAEUS. http://linnaeus.sourceforge.net/ External link
8.
MetaMap. http://metamap.nlm.nih.gov/ External link
9.
Unified Medical Language System (UMLS). http://www.nlm.nih.gov/research/umls/ External link
10.
Hakenberg J, Schmeier S, Kowald A, Klipp E, Leser U. Finding kinetic parameters using text mining. OMICS. 2004:131-152.