Dies ist die archivierte Webseite der ASV. Aktuellere Informationen finden Sie unter temir.org und über die Suchfunktion auf uni-leipzig.de
ASV-Label
Login

16px-feed-icon Theses Diese Seite auf deutsch anzeigen

Textanalyse und Korrektur von durch OCR-Verfahren gewonnenem Text (Diplomarbeit)

Status: beendet
Abgabedatum: 2008-12-16

Description:

Entfernung von Fehlern in durch OCR-Verfahren gewonnenem Text mittels der Verfahren und Datenbestände der ASV.

Abstract:

In der heutigen Zeit existiert eine unüberschaubare Menge von elektronischem Text und täglich werden neue Inhalte generiert. Nicht nur die Anzahl wissenschaftlicher Veröffentlichungen, eBooks, Blogs, Foren und andere Webseiten wachsen kontinuierlich, auch Zeitungen publizieren teilweise oder komplett elektronisch.

Damit einher geht die stetige Weiterentwicklung der automatischen Sprachverarbeitung, die mit der Menge von Informationen umgehen können muss. Nun liegt es nahe, dass diese Verfahren auch auf die bereits in großer Anzahl vorhandenen Textkollektionen in Papierform angewendet werden sollen. Dazu müssen diese maschinell erfasst und digitalisiert werden. Bei der Extraktion von digitalen Inhalten aus Printmedien, kommt es oft zu Fehlern bei der Mustererkennung (Buchstaben, Formelzeichen, etc.).

Diese Fehler sollen mit geeigneten Verfahren analysiert und durch probabilistische Methoden behoben werden. Dazu soll der interessierte Student die bereits bestehenden Verfahren und Datenbestände der ASV nutzen, um Fehler in OCR-generiertem Text zu beseitigen, um die Inhalte so einer wissenschaftlichen Weiterverwendung zuführen zu können.

Author: Ying Xu
Advisor: Prof. Dr. Gerhard Heyer | Sven Teresniak