Article
Text Mining für eine Datenbank, die strukturierte Beschreibungen nosokomialer Ausbrüche enthält
Search Medline for
Authors
Published: | September 20, 2011 |
---|
Outline
Text
Einleitung/Hintergrund: Nosokomiale Ausbrüche können für betroffene Personen und Einrichtungen gravierende Folgen haben. Es ist wichtig, die Ursachen schnell aufzuklären und zu beseitigen, was oftmals zeitaufwändige Untersuchungen erfordert. Publizierte Beschreibungen nosokomialer Ausbrüche sind eine wesentliche Unterstützung beim Ausbruchsmanagement. Die Suche nach relevanter Literatur in Datenbanken wie PubMed, sowie die Extraktion relevanter Angaben wie Erreger oder Übertragungsweg sind aber ebenfalls aufwändig [1].
Outbreak Database [2], [3], [4] ist eine frei zugängliche Datenbank, die strukturierte Informationen zu nosokomialen Ausbrüchen enthält. Sie wird ständig aktualisiert und enthält über 2500 Ausbruchsbeschreibungen. Ziel ist es, neben dem Ausbruchsmanagement auch wissenschaftliches Arbeiten und Lehrtätigkeiten zu unterstützen.
Die formalisierten Ausbruchsbeschreibungen werden i. d. R. erstellt, indem Experten in PubMed gefundene Artikel lesen, nach Relevanz klassifizieren und ggf. darauf basierend strukturierte Informationen manuell extrahieren. Genauigkeit (Precision) und Trefferquote (Recall) der bisher verwendeten Suchanfragen sind unbefriedigend, was zu erhöhtem Aufwand für die Experten oder unerwünschterweise nicht vertretenen Artikeln führt.
Material und Methoden: In einer Diplomarbeit werden automatische Lösungsansätze für die Teilprobleme Klassifikation und Informationsextraktion untersucht.
Der Umfang der bisher gesammelten Informationen über relevante (2658) bzw. nicht relevante (2560) Artikel ermöglicht es, mittels maschinellen Lernens einen automatischen Klassifikator zu entwickeln, der für die zukünftige Suche nach Artikeln verwendet werden kann [5].
Bei der Informationsextraktion [6] beschränkt sich die Arbeit auf die Extraktion der Angaben zu Erregern, betroffenen medizinischen Einrichtungen und dem Land des Ausbruchsgeschehens. Hierzu werden PubMed MeSH Terms und zwei Termidentifikatoren (LINNAEUS [7] und MetaMap [8]) miteinander verglichen. Der Umgang mit unterschiedlichen Vokabularen wird dabei durch den UMLS Metathesaurus [9] ermöglicht, der um Verknüpfungen zum Vokabular von Outbreak Database erweitert wurde. Als Eingabe für die Termidentifikatoren dienen Titel und Abstracts aus PubMed.
Ergebnisse: Das beste Ergebnis bei der Extraktion der Einrichtungen lieferte bisher MetaMap mit 86% Precision und 60% Recall (microaverage). Für die Länderangaben führte die Verwendung von MeSH Terms zum besten Ergebnis, mit 97% Precision und 61% Recall. Mikroorganismen konnten von MetaMap und LINNAEUS gleich gut erkannt werden, mit 63% Precision und 46% Recall, bzw. 57% Precision und 49% Recall.
Diskussion/Schlussfolgerungen: Die Verwendung des erweiterten UMLS Metathesaurus sowie der Umfang der Daten in Outbreak Database haben einen direkten Vergleich von MeSH Terms, MetaMap und LINNAEUS zur Informationsextraktion ermöglicht. Die extrahierten Informationen können verwendet werden, um den Experten Vorschläge anzubieten.
Zwar steht die Evaluation des Klassifikators noch aus, aber der große Umfang an Trainingsbeispielen und Erfolge in anderen Anwendungsgebieten (siehe z. B. [10]) lassen auf gute Ergebnisse hoffen.
Literatur
- 1.
- Zuschneid I, Stamm-Balderjahn S, Hansen S, Groneberg K, Behnke M, Rüden H, Gastmeier P. Outbreak-database. Eine Datenbank für Ausbrüche in medizinischen Einrichtungen. 2005. http://www.dghm.org/texte/Outbreak%20database.pdf
- 2.
- Outbreak Database. http://www.outbreak-database.com/
- 3.
- Links related to Outbreak Database. http://www.outbreak-database.com/Links.aspx
- 4.
- Vonberg RP, Weitzel-Kage D, Behnke M, Gastmeier P. Worldwide Outbreak Database: the largest collection of nosocomial outbreaks. Infection. 2011:29-34.
- 5.
- Sebastiani F. Machine Learning in Automated Text Categorization. ACM Computing Surveys. 2002:1-47.
- 6.
- Grishman R. Kapitel 30 in The Oxford Handbook of Computational Linguistics. Oxford University Press, USA; 2005.
- 7.
- LINNAEUS. http://linnaeus.sourceforge.net/
- 8.
- MetaMap. http://metamap.nlm.nih.gov/
- 9.
- Unified Medical Language System (UMLS). http://www.nlm.nih.gov/research/umls/
- 10.
- Hakenberg J, Schmeier S, Kowald A, Klipp E, Leser U. Finding kinetic parameters using text mining. OMICS. 2004:131-152.