Dies ist die archivierte Webseite der ASV. Aktuellere Informationen finden Sie unter temir.org und über die Suchfunktion auf uni-leipzig.de
ASV-Label
Login

16px-feed-icon Qualifizierungsarbeiten View this page in English

Anwendung von Constrained Multi Label Textklassifikation in Wissensgraphen (Mit mehr Komplexität gerne auch als Masterarbeit) (Bachelorarbeit)

Status: beendet

Beschreibung:

Mit Graph-basierten Datenstrukturen kann jedem Dokument ein eindeutiger Bedeutungsbezug zugordnet werden. Dieser Bedeutungsbezug zeigt eine Abhängigkeit mehrerer Dateneigenschaften. Gehört ein Dokument zu einem Fachgebiet A, so kann es nicht Eigenschaften des Fachgebietes B annehmen. Diese Anforderung wird mit grundlegenden Arbeiten aus dem Gebiet der Constrainted Multi Label Klassifikation lösbar (Li, Li, & Wu, 2013; Park & Fürnkranz, 2008; Wu, Qu, Zhang, & Hartrick, o. J.). Die Arbeiten beschreiben ein Framework, welches mit modernen Klassifikationsalgorithmen angereichert werden muss. Convolutional Neural Networks wurden von (Kim, 2014) erfolgreich eingesetzt und lösten Verfahren mit weitreichenden Leistungssteigerungen ab. Mit der Kombination von neuronal trainierten Sprachmodellen liefern diese Netzwerke heute den State-of-the-Art (Akbik, Blythe, & Vollgraf, o. J.; Devlin, Chang, Lee, & Toutanova, 2018; Howard & Ruder, 2018; Peters et al., 2018; Yang et al., 2019). Eine zusätzliche Herausforderung für kommunale Anwendungen stellt die Übertragung in die deutsche Sprache dar. Die Extraktion von Informationen aus unstrukturierten Textdokumenten erfolgt ebenfalls über Klassifikationsalgorithmen. Das Erkennung von bedeutungstragenden Phrasen in den Dokumenten kann über Short Text Klassifikation und Active Learning modelliert werden. So werden kurze Textstellen als Trainingsdaten bereitgestellt und durch Algorithmen für die Phrasenklassifikation automatisiert erkannt (Hu, Yi, Yang, & Pan, 2018; Huang, Jin, & Zhou, 2010; Kim, 2014; Wiedemann, 2019). Der jeweilige Stand der Forschung beider hier beschriebener Aufgabengebiete muss für die deutsche Sprache und die Textsorte adaptiert und weiterentwickelt und evaluiert werden. Die Kombination von Active Learning und den gezeigten Klassifikationsalgorithmen wurde nach unserem Wissen bisher nicht abschließend untersucht (Sener & Savarese, 2017).

Betreuer: Dr. Andreas Niekler | Janos Borst