Analysen und Heuristiken zur Verbesserung von OCR-Ergebnissen bei Frakturtexten

Analyses and Heuristics for the Improvement of Optical Character Recognition Results for Fraktur Texts

Please always quote using this URN: urn:nbn:de:bvb:20-opus-106527
  • Zahlreiche Digitalisierungsprojekte machen das Wissen vergangener Jahrhunderte jederzeit verfügbar. Das volle Potenzial der Digitalisierung von Dokumenten entfaltet sich jedoch erst, wenn diese als durchsuchbare Volltexte verfügbar gemacht werden. Mithilfe von OCR-Software kann die Erfassung weitestgehend automatisiert werden. Fraktur war ab dem 16. Jahrhundert bis zur Mitte des 20. Jahrhunderts die verbreitete Schrift des deutschen Sprachraums. Durch einige Besonderheiten von Fraktur bleiben die Erkennungsraten bei Frakturtexten aber meistZahlreiche Digitalisierungsprojekte machen das Wissen vergangener Jahrhunderte jederzeit verfügbar. Das volle Potenzial der Digitalisierung von Dokumenten entfaltet sich jedoch erst, wenn diese als durchsuchbare Volltexte verfügbar gemacht werden. Mithilfe von OCR-Software kann die Erfassung weitestgehend automatisiert werden. Fraktur war ab dem 16. Jahrhundert bis zur Mitte des 20. Jahrhunderts die verbreitete Schrift des deutschen Sprachraums. Durch einige Besonderheiten von Fraktur bleiben die Erkennungsraten bei Frakturtexten aber meist deutlich hinter den Erkennungsergebnissen bei Antiquatexten zurück. Diese Arbeit konzentriert sich auf die Verbesserung der Erkennungsergebnisse der OCR-Software Tesseract bei Frakturtexten. Dazu wurden die Software und bestehende Sprachpakete gesondert auf die Eigenschaften von Fraktur hin analysiert. Durch spezielles Training und Anpassungen an der Software wurde anschließend versucht, die Ergebnisse zu verbessern und Erkenntnisse über die Effektivität verschiedener Ansätze zu gewinnen. Die Zeichenfehlerraten konnten durch verschiedene Experimente von zuvor 2,5 Prozent auf 1,85 Prozent gesenkt werden. Außerdem werden Werkzeuge vorgestellt, die das Training neuer Schriftarten für Tesseract erleichtern und eine Evaluation der erzielten Verbesserungen ermöglichen.show moreshow less
  • The knowledge of past centuries is made available by numerous digitization projects. However, the full potential of document digitization only unfolds when those are made available as searchable full texts. Capturing this data can be mostly automatized by using OCR software. Fraktur was the most common typeface between the 16th and 20th centuries. The special characteristics of Fraktur usually cause the recognition rates for these texts to be much worse than those for Antiqua texts. This thesis concentrates on improving the recognition ratesThe knowledge of past centuries is made available by numerous digitization projects. However, the full potential of document digitization only unfolds when those are made available as searchable full texts. Capturing this data can be mostly automatized by using OCR software. Fraktur was the most common typeface between the 16th and 20th centuries. The special characteristics of Fraktur usually cause the recognition rates for these texts to be much worse than those for Antiqua texts. This thesis concentrates on improving the recognition rates of the OCR software Tesseract for Fraktur texts. Therefore, the software as well as several language files has been analyzed regarding the special features of Fraktur. By training the software for Fraktur and by adjusting the software itself we tried to improve recognition results and to gain insights about the effectivity of different approaches. During the course of this work, the character error rates were reduced from 2.5 percent to 1.85 percent. Additionally, tools are being presented, which simplify the process of training Tesseract and which allow the user to evaluate the improvements achieved.show moreshow less

Download full text files

Export metadata

Metadaten
Author: Paul Vorbach
URN:urn:nbn:de:bvb:20-opus-106527
Document Type:Master Thesis
Granting Institution:Universität Würzburg, Fakultät für Mathematik und Informatik
Faculties:Fakultät für Mathematik und Informatik / Institut für Informatik
Referee:Prof. Dr. Jürgen Albert
Language:German
Year of Completion:2014
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 000 Informatik, Informationswissenschaft, allgemeine Werke
GND Keyword:Optische Zeichenerkennung; Klassifikation; Frakturschrift
Tag:OCR; Tesseract
CCS-Classification:I. Computing Methodologies / I.7 DOCUMENT AND TEXT PROCESSING (H.4-5) (REVISED) / I.7.5 Document Capture (I.4.1) (NEW) / Optical character recognition (OCR) (NEW)
Release Date:2014/11/28
Licence (German):License LogoCC BY-NC-ND: Creative-Commons-Lizenz: Namensnennung, Nicht kommerziell, Keine Bearbeitung