Entscheidungsbäume zur Imputation kategorialer Daten

Entscheidungsbäume sind als Prognoseverfahren im Bereich des maschinellen Lernens verbreitet. Jedoch fehlt bisher eine Untersuchung, in wieweit sich die Algorithmen auch zur Imputation eignen. Dies ist insbesonders vor dem Hintergrund der verschiedenen Zielstellungen einer Imputation und einer Klassifikation relevant. So liegt bei einer Imputation häufig ein stärkerer Fokus auf der Struktur des Gesamtdatensatzes, wohingegen eine Klassifikation auf eine möglichst genaue Vorhersage einzelner Objekte abzielt. Neben den klassischen deterministischen Entscheidungsbäumen mit Majority Rule werden daher auch Entscheidungsbäume mit Class Probability Rule mit einer Zufallskomponente in die Untersuchung mit einbezogen. In einer Simulationsstudie, in der als Vergleichsverfahren zusätzlich eine Modus-Imputation und ein Random Hot Deck eingesetzt werden, zeigt sich, dass kein Verfahren in allen Fällen zum besten Ergebnis führt. So führt die Imputation mittels Entscheidungsbaum und Class Probability Rule meist zur geringsten Verzerrung der Häufigkeitsverteilung, jedoch stellt der Entscheidungsbaum mit Majority Rule meist die ursprünglichen Werte am besten wieder her. Welches Verfahren zur Imputation verwendet werden sollte, ist also abhängig vom Ziel der Imputation.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten