Dies ist die archivierte Webseite der ASV. Aktuellere Informationen finden Sie unter temir.org und über die Suchfunktion auf uni-leipzig.de
ASV-Label
Login

16px-feed-icon Current projects Diese Seite auf deutsch anzeigen

OCR-D Modulprojekt 3 Textoptimierung – Unsupervised OCR-Postcorrection based on Neural Networks and Finite-state Transducers (NN/FST)

Das DFG-Verbundprojekt OCR-D, Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren für die Optical-Character-Recognition (OCR), hat die technologische Vorbereitung der Massendigitalisierung (Volltext-Erfassung) von historischen Drucken im deutschsprachigen Raum vom 16. bis zum 19. Jahrhundert zum Ziel. Es besteht aus mehreren Modulprojekten für wichtige Teilprobleme und einem Koordinierungsprojekt zur konzeptionellen Vorbereitung, Begleitung und Integration derselben. Angestrebt wird u.a. die Erstellung von Referenzkorpora, Metadaten-Standards, Workflows und eines Software-Prototypen.

Im Modulprojekt NN/FST sollen einsatzfähige Software-Lösungen für das Modul 3 Textoptimierung im OCR-D-Funktionsmodell entwickelt werden. Schwerpunkt der Entwicklungen liegt im Bereich 3.B (Nachkorrektur), wobei deren Einsatz im Zusammenhang mit verschiedenen aktuellen OCR-Systemen (Bereich 3.A) evaluiert wird. Als maßgebliche Technologien werden Neuronale Netze (NN) gemeinsam mit endlichen Transduktoren (FST) zur Dekodierung erkannter Textzeilen in einem Noisy-Channel-Modell eingesetzt.


Support program: DFG, LIS
Partner: BBAW Berlin, Staatsbibliothek Berlin, Herzog-August-Bibliothek Wolfenbüttel, SUB Göttingen, KIT, LMU/CIS München, Uni Würzburg, Uni Mannheim, Uni Mainz, Uni Erlangen
Time frame: 1.4.2018-30.9.2019

Kontakt: Prof. Dr. Gerhard Heyer, Dr. Maciej Janicki, Lena Schiffer, Robert Sachunsky

other link iconFurther informations