OCR-D Modulprojekt 3 Textoptimierung – Unsupervised OCR-Postcorrection based on Neural Networks and Finite-state Transducers (NN/FST)
Das DFG-Verbundprojekt OCR-D, Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren für die Optical-Character-Recognition (OCR), hat die technologische Vorbereitung der Massendigitalisierung (Volltext-Erfassung) von historischen Drucken im deutschsprachigen Raum vom 16. bis zum 19. Jahrhundert zum Ziel. Es besteht aus mehreren Modulprojekten für wichtige Teilprobleme und einem Koordinierungsprojekt zur konzeptionellen Vorbereitung, Begleitung und Integration derselben. Angestrebt wird u.a. die Erstellung von Referenzkorpora, Metadaten-Standards, Workflows und eines Software-Prototypen.
Im Modulprojekt NN/FST sollen einsatzfähige Software-Lösungen für das Modul 3 Textoptimierung im OCR-D-Funktionsmodell entwickelt werden. Schwerpunkt der Entwicklungen liegt im Bereich 3.B (Nachkorrektur), wobei deren Einsatz im Zusammenhang mit verschiedenen aktuellen OCR-Systemen (Bereich 3.A) evaluiert wird. Als maßgebliche Technologien werden Neuronale Netze (NN) gemeinsam mit endlichen Transduktoren (FST) zur Dekodierung erkannter Textzeilen in einem Noisy-Channel-Modell eingesetzt.
Support program: DFG, LIS
Partner: BBAW Berlin, Staatsbibliothek Berlin, Herzog-August-Bibliothek Wolfenbüttel, SUB Göttingen, KIT, LMU/CIS München, Uni Würzburg, Uni Mannheim, Uni Mainz, Uni Erlangen
Time frame: 1.4.2018-30.9.2019
Kontakt: Prof. Dr. Gerhard Heyer, Dr. Maciej Janicki, Lena Schiffer, Robert Sachunsky
