Dies ist die archivierte Webseite der ASV. Aktuellere Informationen finden Sie unter temir.org und über die Suchfunktion auf uni-leipzig.de
ASV-Label
Login

16px-feed-icon Theses Diese Seite auf deutsch anzeigen

Auswertung von Briefköpfen für die Dokumentklassifikation (Masterarbeit)

Status: beendet

Description:

Im Rahmen der Qualifikationsarbeit sollen unter Verwendung von OCR-Koordinaten und Cluster-Verfahren Textabschnitte in Briefköpfen wie Absender, Adressat, Datum und Betreff erkannt werden und daraus mit einem lexikalischen Ansatz Personennamen, Organisationsnamen, Ortsnamen und Schlagworte extrahiert und klassifiziert werden. Für die so extrahierten Terme sollen aus einer größeren Dokumentkollektion Kookkurrenznetzwerke erzeugt werden.
Als Datengrundlage dienen Daten aus dem BStU sowie einem Kooperationsprojekt mit dem Helmholtz Zentrum München.
Die Aufgabe ist eine Weiterführung einer Aufgabe aus dem Praktikum Text Mining im WS 2013/14

Author: Robert Noack
Advisor: Prof. Dr. Gerhard Heyer | Dr. Daniel Isemann