Bewertung historischer und regionaler Schreibvarianten mit Hilfe von Abstandsmaßen

In dieser Diplomarbeit werden vierzehn verschiedene Abstandsmaße evaluiert. Maßstab ist dabei ihre Anwendbarkeit im Kontext historischer Schreibvarianten. Anschließend werden die erfolgreichsten Verfahren zu der flexiblen Abstandsmetrik FlexMetric weiterentwickelt bzw. vereint. Ausgangspunkt der Untersuchungen war die sehr verbreitete Levenshtein-Distanz. Obwohl das Levenshtein-Maß, das auf der Anzahl der Bearbeitungsoperation von Zeichenketten beruht, für sein Alter und seine Einfachheit erstaunlich gute Ergebnisse erzielt, sind spezielle Verfahren erwartungsgemäß effizienter. Die besten Evaluationsresultate erzielt hierbei der von Justin Zobel und Philip Dart entwickelte Editex-Algorithmus. Er vereint die Stärken von auf Bearbeitungsoperationen basierenden Verfahren (z.B. Levenshtein) mit phonetischen Gruppierungsverfahren (z.B. Soundex). Ausgehend davon wird der flexible Container FlexMetric für ein Abstandsmaß entwickelt, welches zusätzlich um Trainierbarkeit erweitert wurde. Mittels der stochastischen String Edit-Distance von Ristad und Yianilos erbringt die FlexMetric abermals eine deutliche Steigerung der Retrievalergebnisse. Eine Zusatzbetrachtung führt in eines von vielen weiterführenden Problemen ein, wie verschiedene Komposita oder ihre Teile mit den neuen Abstandsmaßen verglichen werden können.
Fourteen different string distance measures are evaluated in this diploma thesis. The benchmarch is taken considering their applicability in the context of historical spelling variants. The most successful methods are further developed and unified to form the flexible distance measure FlexMetric. This approach is enhanced by a method to estimate its parameters using given data, based on an expectation-maximization algorithm proposed by Ristad and Yianilos.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten