Retrievalmethoden für historische Korpora mit nicht standardisierten Schreibweisen

Die Anzahl von digitalen Bibliotheken, die auch historische Volltexte enthalten, steigt immer weiter. Damit einhergehend wächst auch die Anzahl an digital verfügbaren historischen Dokumenten. Trotzdem gestaltet sich die Suche nach diesen Dokumenten immer noch schwierig. Aufgrund fehlender Standardisierung der Rechtschreibung ist es vielfach nicht möglich, mit Suchbegriffen in heutiger Sprache historische Texte zu finden. Diese Thematik ist vor allem bei Sprachen relevant, deren Rechtschreibung erst spät standardisiert wurde, wie z. B. Deutsch und Englisch. In dieser Arbeit wird ein neuer Ansatz für Retrieval in Texten mit nicht standardisierter Rechtschreibung entwickelt. Es wird ein Algorithmus beschrieben, der den Benutzer bei der Suche in digitalen Bibliotheken unterstützt. Basierend auf Belegpaaren aus aktueller und historischer Schreibung generiert der Algorithmus probabilistische Regeln. Mit diesen werden Varianten eines Suchbegriffes in historischer Schreibung generiert. Dargestellt wird die Gesamtarchitektur der Suchmaschine einschließlich der Evaluierung. Ausgehend von einem Suchbegriff in Grundform wird ein aktuelles deutsches Wörterbuch benutzt, um die zugehörigen Vollformen zu finden. Auf die gefundenen Vollformen werden die generierten Transformationsregeln angewendet, um die historischen Wortformen zu bilden. Die Experimente zeigen, dass sich die Retrievalqualität von historischen Kollektionen durch den vorgestellten Ansatz stark verbessert. Somit kann er den Benutzer in seiner täglichen Arbeit deutlich entlasten. Eine sehr große Anzahl historischer Dokumente, die bisher trotz ihrer Digitalisierung nicht sinnvoll durchsucht werden konnten, werden nun verschiedensten Benutzergruppen --- vom Laien bis zum Historiker --- besser zugänglich. Mit Hilfe des im Anschluss entwickelten Verfahrens zur automatischen Erstellung der Belege ist es zusätzlich möglich, den Engpass bei der Regelerstellung aufzulösen. Das Verfahren wurde in den entwickelten RuleGenerator integriert. Dieser stellt eine Benutzeroberfläche zur Verfügung, die dem Anwender die Generierung und Bearbeitung von Belegen und Regeln ermöglicht.
The number of digital historical collections is continually growing. But even though full text is available, many documents can not be found because they are using a non-standard spelling. Most users will enter search terms in their contemporary language which differs from the historic language in the documents. This topic is most notably relevant for languages that have been standardised late, e. g. German and English. This thesis presents a new approach for retrieval of texts with non-standard spelling. For this purpose a new algorithm is described in order to support the user when searching in digital libraries. Based on evidences in contemporary and historical spelling the algorithm is generating probabilistic rules. These are used to generate historic variants of the search term. The overall architecture of the system including the evaluation is described. Given a search term as a lemma, a dictionary of contemporary German is used for finding all inflected and derived forms of the lemma. Then transformation rules (derived from training data) are applied in order to generate the historic spelling variants. The experimental results show that the retrieval quality for historic collections could be improved substantially. Thus the user can considerably be relieved in his daily work. Many historic documents could not be searched appropriately until now, even though they have been digitized. Hence they are much better accessible to different user groups ---­ from the linguist to the historian. The afterwards developed approach for automatically accepted evidences solves the bottleneck within the rule development process. The method has been integrated into the RuleGenerator an interactive tool for collecting evidences and a user driven rule generation process where the user can also modify generated rules and create rules on his own.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten