Automatische Extraktion von Termhierarchien aus Dokumentenkollektionen für die semantische Strukturierung (Diplomarbeit)
Status: beendetAbgabedatum: 11.01.2007
Kurzzusammenfassung:
Diese Diplomarbeit betrachtet die automatische Strukturierung und Beschlagwortung großer Dokumentenkollektionen in semantischer Art und Weise, was z.B. für das Browsen sehr großer Dokumentenmengen nützlich ist.
Als zugrundeliegende semantische Struktur wurde die Termhierarchie gewählt, die einen Baum mit Wortmengen an den Knoten darstellt und somit gleichzeitig Beschreibungen der extrahierten Dokumententeilmengen durch Schlagworte liefern kann. Im Gegensatz zu einer prototypbasierten Ontologie ist jeder Term nicht entlang eines Astes jedem, sondern nur genau einem Knoten und damit auch einem Abstrakheitsniveau zugeordnet.
Die zur Extraktion der Termhierarchie benutzten Eigenschaften der Dokumente sind die statistischen Verteilungen der Terme über die Dokumente, worauf dann auch die Strukturierung der Dokumentenmenge basiert. Dazu werden die als Bag-of-words betrachteten Dokumente gegenüber einem Referenzkorpus analysiert und die daraus gewonnenen für das Dokument signifikanten Terme bilden den Vektor, der im weiteren das Dokument beschreibt.
Das konkrete Vorgehen erfolgt bottom-up und basiert auf der iterativen Anwendung klassischer, flacher Strukturierungsalgorithmen wie Clustern oder die Extraktion latenter Konzepte. Dabei werden in jeder Runde die für die gefundenen Teilstrukturen relevanten Terme extrahiert und das Ergebnis dieser Runde ist die Strukturierungsaufgabe für die nächste bis die Wurzel der Hierarchie erreicht ist. Hierzu wurden, da es um den Möglichkeitsbeweis ging, zuerst die einfachsten Verfahren und damit als Repräsentanten das hierarchisch-agglomerative Clustern (HAC) und die probabilistische latent-semantische Analyse (PLSA) evaluiert.
Die Evaluation erfolgt, indem die Strukturierungsergebnisse mit einer ürsprünglich vorhandenen hierarchischen Strukturierung der Dokumentenkollektion, die zu reproduzieren war,
verglichen werden.
Das Ergebnis ist ein Proof-of-concept, daß die semantische Strukturierung und Beschreibung von Dokumentenmengen vollautomatisch und nahezu ohne sprachspezifisches, insbesondere ohne linguistisches Wissen erfolgen kann. Das ermöglicht auch die Erschließung von Korpora bisher nichterforschter Sprachen.
Autor: Florian HolzBetreuer: Prof. Dr. Gerhard Heyer | Dr. Hans Friedrich Witschel
