Normalization of historical texts with neural network models

  • With the increasing availability of digitized resources of historical documents, interest in effective natural language processing (NLP) for these documents is on the rise. However, the abundance of variant spellings makes them challenging to work with both for human users and for NLP tools. Normalization to contemporary spelling is often proposed as a solution. This work investigates the suitability of a neural encoder-decoder architecture for automatic normalization of historical language data. The neural network is extensively tuned and improved by the application of techniques such as beam search and model ensembling. Nonetheless, in a large-scale evaluation on datasets from eight different languages, the proposed model is usually outperformed by a previously established method using character-based statistical machine translation.
  • Historische Dokumente werden zunehmend in digitalisierter Form verfügbar gemacht. Häufig sind sie jedoch durch eine Fülle von Schreibvarianten gekennzeichnet, welche die Anwendung computerlinguistischer Methoden (bzw. NLP-Tools) schwierig gestalten. Ein häufig verwendeter Ansatz ist die Normalisierung dieser Varianten auf moderne Schreibweisen. Die vorliegende Arbeit untersucht die Anwendung neuronaler Encoder-Decoder-Modelle für die automatische Normalisierung historischer Sprachdaten. In einer umfassenden Auswertung auf historischen Korpora in acht verschiedenen Sprachen zeigt sich, dass das verwendete Modell — trotz zahlreicher Anpassungen und Verbesserungen wie z.B. Beam Search und Ensembling — meist eine schlechtere Normalisierungs-Genauigkeit hat als etablierte Methoden, die auf statistischer maschineller Übersetzung beruhen.

Download full text files

Export metadata

Metadaten
Author:Marcel BollmannGND
URN:urn:nbn:de:hbz:294-62134
DOI:https://doi.org/10.13154/294-6213
Referee:Stefanie DipperORCiDGND, Barbara PlankGND
Document Type:Doctoral Thesis
Language:English
Date of Publication (online):2018/12/19
Date of first Publication:2018/12/19
Publishing Institution:Ruhr-Universität Bochum, Universitätsbibliothek
Granting Institution:Ruhr-Universität Bochum, Fakultät für Philologie
Date of final exam:2018/06/20
Creating Corporation:Fakultät für Philologie
GND-Keyword:Computerlinguistik; Sprachverarbeitung; Natürliche Sprache; Neuronales Netz; Maschinelles Lernen
Dewey Decimal Classification:Sprache / Sprache, Linguistik
faculties:Fakultät für Philologie
Licence (German):License LogoKeine Creative Commons Lizenz - es gelten der Veröffentlichungsvertrag und das deutsche Urheberrecht