gms | German Medical Science

MAINZ//2011: 56. GMDS-Jahrestagung und 6. DGEpi-Jahrestagung

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.
Deutsche Gesellschaft für Epidemiologie e. V.

26. - 29.09.2011 in Mainz

Analyse von Imputationsmethoden für finite Gauß-Mischverteilungen

Meeting Abstract

Search Medline for

  • Sylvia Zebrowski - Kompetenzzentrum für Klinische Studien, Universität Bremen, Bremen
  • Jürgen Timm - Kompetenzzentrum für Klinische Studien, Universität Bremen, Bremen

Mainz//2011. 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi). Mainz, 26.-29.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11gmds066

doi: 10.3205/11gmds066, urn:nbn:de:0183-11gmds0661

Published: September 20, 2011

© 2011 Zebrowski et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Hintergrund: In der klinischen Forschung stehen dem Anwender oft nur unvollständige Datensätze zur Verfügung, die aus unterschiedlichen Gründen, wie z.B. Datenverlust, unbeantwortete Fragen oder unbrauchbare Laborwerte, entstehen können. Aufgrund solcher Fehlwerte besteht ein Informationsverlust, der die Verwendung vieler statistischer Methoden nicht mehr möglich macht. In solchen Fällen gilt es, die Fehlwerte durch plausible Imputationswerte zu ersetzen. Eine weitere Schwierigkeit, die sich in der Praxis der klinischen Forschung ergibt, ist die Verteilung der Zielvariablen. Die Daten können nur selten mit einer üblichen Verteilung wie z.B. der Normalverteilung approximiert werden. Vielmehr kommt es vor, dass die gezogene Stichprobe nicht aus einer, sondern aus mehreren Subpopulationen besteht. Die Heterogenitäten zwischen den Subpopulationen können mit finiten Mischverteilungen modelliert werden, dessen Parameterschätzung am häufigsten durch den EM-Algorithmus erfolgt, vgl. [1]. Diese beiden Themengebiete werden in einem Forschungsprojekt der Universität Bremen vereint, indem Imputationsmethoden für finite Mischverteilungen analysiert werden.

Methoden: Während einfache und zum größten Teil veraltete Imputationsmethoden in fast allen statistischen Softwareprodukten enthalten sind, werden weiterentwickelte Imputationsmethoden wie z.B. die multiple Imputation (vgl. [2]) vergleichsweise wenig angewendet. Simulierte Szenarien von Fehlwerten in Gauß-Mischverteilungen mit Berücksichtigung von Fehlwertmechanismen und unterschiedlichen Fehlwertraten sollen hierbei mit verschiedenen multiplen Imputationsstrategien ersetzt und untersucht werden. Für die Analyse der vervollständigten Datensätze werden die Parameterschätzer der Gauß-Mischverteilung mittels EM-Algorithmus ausgewertet, um anschließend eine Aussage im Vergleich zu den Originalparametern treffen zu können.

Ergebnisse: Aus Gründen der Übersichtlichkeit soll hier nur der Spezialfall einer Mischung zweier bivariater Normalverteilungen vorgestellt werden. Die Resultate der Simulationsstudie zeigten nicht nur gegenüber einfachen Imputationsmethoden sondern auch zwischen den multiplen Imputationsstrategien Vor- und Nachteile in Bezug auf die Erhaltung der eigentlichen Parameter der mischverteilten Daten. Neben Standardmethoden wurden in Anlehnung an die Arbeit von [3] auch die flexiblen Eigenschaften einer finiten Mischverteilung in die Imputationsmethode mit einbezogen, wobei besonders positiv die Imputation mittels Datenaugmentation und Predictive Mean Matching aufgefallen ist.

Schlussfolgerungen: Die bisherigen Überlegungen und Ergebnisse in der Literatur bilden die Grundlage und Motivation für eine detaillierte Analyse von Imputationsmethoden in Bezug auf die Subgruppen einer Gauß-Mischverteilung, die bislang so noch nicht durchgeführt wurde. Sowohl die Imputation als auch die Analyse soll dabei unter Berücksichtigung der Subpopulationen, des Fehlwertmechanismus und der Fehlwertrate erfolgen und dabei plausible Imputationswerte liefern sowie die Verteilung der Subpopulationen und den Zusammenhängen zu den Kovariablen besser wiedergeben als bisherige Standardmethoden.


Literatur

1.
McLachlan GJ, Peel D. Finite mixture models. Wiley-Interscience; 2000.
2.
Rubin DB. Multiple imputation for nonresponse in sample surveys. New York: Wiley; 1987.
3.
Di Zio M, Guarnera U. On Multiple Imputation Through Finite Gaussian Mixture Models. Data Analysis, Machine Learning and Applications. Springer; 2008. p. 111-118.