Von der Vision zur Umsetzung: Der aktuelle Entwicklungsstand von OCR-D

  • Noch immer ist es eine Vision, dass der gesamte Bestand der in den Verzeichnissen der im deutschen Sprachraum erschienen Drucke des 16.-18. Jh. der Wissenschaft als hochqualitativer Volltext angeboten wird. Einer der Gründe ist, dass in der Forschung entwickelte OCR -Technologien noch nicht für die Anwendung in Kultureinrichtungen zur Massenvolltextdigitalisierung implementiert wurden. Dieser Integrations - und Koordinationsaufgaben widmet sich das Projekt OCR-D und hat mit dem OCR-D Workflow eine Lösung zur Massenvolltextdigitalisierung entwickelt. Für die kommende Phase der Massenprozessierung der digitalisierten Bestände müssen die entsprechenden logistischen und technischen Voraussetzungen geschaffen werden.Um die Hürden auf dem Weg der Realisierung dieser Vision zu bewältigen wird von der DFG seit 2015 die "Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren der Optical Character Recognition" (OCR-D) gefördert. Ziel der Initiative ist die automatische Texterkennung, insbesondere für historische Drucke zu verbessern, damit so Forschungsdaten für die Wissenschaft angeboten werden können.In der ersten Projektphase wurden Bedarfe für die Weiterentwicklung der OCR ermittelt und analysiert. Die Vorstellungen dieser Untersuchungsergebnisse stießen auf den Bibliothekartagen 2016 und 2017 auf großes Interesse. Seit Anfang 2018 werden in acht Modulprojekten Lösungen für diese Bedarfe entwickelt, u.a. zur Layout-Erkennung, Nachkorrektur und Langzeitarchivierung. Die entwickelten Lösungen fließen in den OCR-D Workflow ein. Parallel zu den technischen Arbeiten werden die DFG-Praxisregeln "Digitalisierung" überarbeitet. Schon heute empfiehlt die DFG Antragstellern die ihre Bestände volltextdigitalisieren möchten mit dem Koordinationsprojekt OCR-D in Kontakt zu treten. Der Vortrag möchte den aktuellen Stand der Entwicklungsarbeit darstellen sowie einen Ausblick geben und bietet Interessierten die Möglichkeit sich mit dem Koordinierungsgremium zu vernetzen.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Elisa Herrmann
URN:urn:nbn:de:0290-opus4-163566
Parent Title (German):TK 3: Content kuratieren / Texterkennung: aktuelle Entwicklungen (18.03.2019, 09:00 - 11:30 Uhr, M5 (Messehaus))
Document Type:Conference publication (Presentation slides)
Language:German
Year of Completion:2019
Release Date:2019/03/07
Themes:Digitalisierung, Langzeitarchivierung
German Bibliothekartage / BiblioCon:108. Deutscher Bibliothekartag in Leipzig 2019 = 7. Bibliothekskongress
108. Deutscher Bibliothekartag in Leipzig 2019 = 7. Bibliothekskongress / Themenkreise / Podium der Verbände / TK 3: Content kuratieren / Texterkennung: aktuelle Entwicklungen
Licence (German):License LogoDeutsches Urheberrecht
Einverstanden
Diese Webseite verwendet technisch erforderliche Session-Cookies. Durch die weitere Nutzung der Webseite stimmen Sie diesem zu. Unsere Datenschutzerklärung finden Sie hier.