ASV-Label
Login

16px-feed-icon Qualifizierungsarbeiten View this page in English

Textanalyse und Korrektur von durch OCR-Verfahren gewonnenem Text (Diplomarbeit)

Status: beendet
Abgabedatum: 16.12.2008

Beschreibung:

Entfernung von Fehlern in durch OCR-Verfahren gewonnenem Text mittels der Verfahren und Datenbestände der ASV.

Kurzzusammenfassung:

In der heutigen Zeit existiert eine unüberschaubare Menge von elektronischem Text und täglich werden neue Inhalte generiert. Nicht nur die Anzahl wissenschaftlicher Veröffentlichungen, eBooks, Blogs, Foren und andere Webseiten wachsen kontinuierlich, auch Zeitungen publizieren teilweise oder komplett elektronisch.

Damit einher geht die stetige Weiterentwicklung der automatischen Sprachverarbeitung, die mit der Menge von Informationen umgehen können muss. Nun liegt es nahe, dass diese Verfahren auch auf die bereits in großer Anzahl vorhandenen Textkollektionen in Papierform angewendet werden sollen. Dazu müssen diese maschinell erfasst und digitalisiert werden. Bei der Extraktion von digitalen Inhalten aus Printmedien, kommt es oft zu Fehlern bei der Mustererkennung (Buchstaben, Formelzeichen, etc.).

Diese Fehler sollen mit geeigneten Verfahren analysiert und durch probabilistische Methoden behoben werden. Dazu soll der interessierte Student die bereits bestehenden Verfahren und Datenbestände der ASV nutzen, um Fehler in OCR-generiertem Text zu beseitigen, um die Inhalte so einer wissenschaftlichen Weiterverwendung zuführen zu können.

Autor: Ying Xu
Betreuer: Prof. Dr. Gerhard Heyer | Sven Teresniak