Handwriting Analysis with Focus on Writer Identification and Writer Retrieval

Language
en
Document Type
Doctoral Thesis
Issue Date
2019-05-06
Issue Year
2019
Authors
Christlein, Vincent
Editor
Abstract

In the course of the mass digitization of historical as well as contemporary sources, an individual examination by means of historical or forensic experts is no longer feasible. A solution could be an automatic handwriting analysis that determines or suggests script attributes, such as the writer or the date of a document. In this work, several novel techniques based on machine learning are presented to obtain these attributes from a single document image. The focus lies on writer recognition for which a novel pipeline is developed, which identifies the correct writer of a given sample in over 99% of all tested contemporary datasets, numbering between 150 and 310 writers each, with four to five samples per writer. In a large historical dataset, consisting of 720 writers and five samples per writer, an identification rate of close to 90% is achieved. Robust local descriptors play a major role in the success of this pipeline. Shape- and histogram-based descriptors prove to be very effective. Furthermore, novel deep-learning-based features are developed using deep convolutional neural networks, which are trained with writer information from the training set. While these features achieve very good results in contemporary data, they lack distinctiveness in the evaluated historical dataset. Therefore, a novel feature learning technique is presented that solves this by learning robust writer-independent script features in an unsupervised manner. The computation of a global descriptor from the local descriptors is the next step. For this encoding procedure, various techniques from the speech and computer vision community are investigated and thoroughly evaluated. It is important to counter several effects, such as feature correlation and the over-counting of local descriptors. Overall, methods based on aggregating first order statistics of residuals are the most effective approaches. Common writer recognition methods use the global descriptors directly for comparison. In contrast, exemplar classifiers are introduced in this thesis allowing sample-individual similarities to be learned, which are shown to be very effective for an improved writer recognition. This writer recognition pipeline is adapted to other tasks related to digital paleography. Medieval papal charters are automatically dated up to an error range of 17 years. Fur- thermore, an adapted pipeline is among the best to classify medieval Latin manuscripts into twelve different script types. This information can then be used for a pre-sorting of documents or as a preprocessing step for handwritten text recognition. It turns out that counteracting different illumination and contrast effects is an important factor for deep-learning-based approaches. The observation that script has similar tubal structures to blood vessels is exploited for an improved text block segmentation in historical data by means of a well-known medical filtering technique. This work sets new recognition standards for several tasks, allowing the automatic document analysis of large corpora with low error rates. These methods are also applicable to other fields, such as forensics or paleography, to determine writers, script types or other metadata of contemporary or historical documents.

Abstract

Im Zuge der Massendigitalisierung von historischen aber auch zeitgenössischen Quellen ist eine Einzelprüfung mittels historischen oder forensischen Experten nicht mehr machbar. Eine Lösung könnte eine automatische Handschriftanalyse sein, die Schriftattribute eines Dokuments, wie z. B. der Schreiber oder das Datum, bestimmt oder vorschlägt. In dieser Arbeit werden mehrere neue, auf maschinellem Lernen basierende, Techniken vorgestellt um diese Attribute von einem einzelnen Dokumentenbild zu erlangen. Der Fokus liegt auf der Schreibererkennung wofür eine neuartige Pipeline entwickelt wird, die in über 99% der Fälle den korrekten Schreiber einer bestimmten Probe erkennt, getestet wurden dabei mehrere zeitgenössische Datensätze mit jeweils 150 bis 310 Schreibern und vier bis fünf Proben pro Schreiber. In einem großen historischen Datensatz, bestehend aus 720 Schreibern und fünf Proben pro Schreiber wird eine Identifikationsrate von nahezu 90% erreicht. Robuste lokale Deskriptoren spielen eine wichtige Rolle für den Erfolg dieser Pipeline. Form- und Histogramm-basierte Deskriptoren erweisen sich als sehr effektiv. Desweiteren werden neuartige Merkmale basierend auf tiefem Lernen entwickelt. Diese benutzen tiefe faltende neuronale Netzen und werden mittels der Schreiberinformation des Trainingssets trainiert. Während diese Eigenschaften sehr gute Ergebnisse auf zeitgenössischen Daten erzielen, fehlt ihnen die Unterscheidungskraft im ausgewerteten historischen Datensatz. Daher wird eine neuartige Merkmalslerntechnik vorgestellt, die dies dadurch löst, dass robuste Schreiber-unabhängige Schriftmerkmale in unüberwachter Weise gelernt werden. Der nächste Schritt ist die Berechnung eines globalen Deskriptors aus den lokalen Deskriptoren. Für dieses Kodierungssverfahren werden verschiedene Techniken aus den Gebieten der Sprachverarbeitung und Rechnersehen untersucht und gründlich evaluiert. Dabei ist es wichtig mehreren Effekten entgegenzuwirken, wie zum Beispiel der Merkmalskorrelation und der Überzählung von lokalen Deskriptoren. Insgesamt sind Methoden, die auf der Aggregation von Residuum-Statistiken erster Ordnung basieren, die effektivsten Ansätze. Gängige Autorenerkennungsmethoden verwenden die globalen Deskriptoren direkt zum Vergleich. Im Gegensatz dazu werden in dieser Arbeit Exemplar-Klassifikatoren vorgestellt, die es erlauben Proben-individuelle Ähnlichkeiten zu lernen, und die sich als sehr effektiv für eine verbesserte Schreibererkennung erweisen. Diese Schreibererkennungspipeline wird für andere Aufgaben der digitalen Paläographie angepasst. Mittelalterliche Papsturkunden werden automatisch bis zu einem Fehlerbereich von 17 Jahren datiert. Darüber hinaus gehört eine angepasste Pipeline zu den besten, um mittelalterliche lateinische Manuskripte in zwölf verschiedene Schriftarten zu klassifizieren. Diese Informationen können dann für eine Vorsortierung von Dokumentenm, oder als Vorver-arbeitungsschritt zur Handschrifterkennung verwendet werden. Es stellt sich heraus, dass das Entgegenwirken unterschiedlicher Beleuchtungs- und Kontrasteffekte ein wichtiger Faktor für jene Anzätze, die auf tiefem Lernen basieren, ist. Die Beobachtung, dass die Schrift ähnliche Röhrenstrukturen wie Blutgefäße aufweist, wird für eine verbesserte Textblocksegmentierung in historischen Daten mittels einer bekannten medizinischen Filtertechnik ausgenutzt. Diese Arbeit setzt neue Erkennungsstandards für verschiedene Aufgaben, die eine automatische Dokumentenanalyse großer Korpora mit geringer Fehlerquote ermöglichen. Diese Methoden sind auch in anderen Bereichen, wie der Forensik oder Paläographie, anwendbar, um Schriftsteller, Schrifttypen, oder andere Metadaten von zeitgenössischen oder historischen Dokumente zu bestimmen.

DOI
Faculties & Collections
Zugehörige ORCIDs