Auswertung von Briefköpfen für die Dokumentklassifikation (Masterarbeit)
Status: beendetBeschreibung:
Im Rahmen der Qualifikationsarbeit sollen unter Verwendung von OCR-Koordinaten und Cluster-Verfahren Textabschnitte in Briefköpfen wie Absender, Adressat, Datum und Betreff erkannt werden und daraus mit einem lexikalischen Ansatz Personennamen, Organisationsnamen, Ortsnamen und Schlagworte extrahiert und klassifiziert werden. Für die so extrahierten Terme sollen aus einer größeren Dokumentkollektion Kookkurrenznetzwerke erzeugt werden.
Als Datengrundlage dienen Daten aus dem BStU sowie einem Kooperationsprojekt mit dem Helmholtz Zentrum München.
Die Aufgabe ist eine Weiterführung einer Aufgabe aus dem Praktikum Text Mining im WS 2013/14
Betreuer: Prof. Dr. Gerhard Heyer | Dr. Daniel Isemann