Dies ist die archivierte Webseite der ASV. Aktuellere Informationen finden Sie unter temir.org und über die Suchfunktion auf uni-leipzig.de
ASV-Label
Login

16px-feed-icon Verfahren der ASV View this page in English

Klassifizierung von Texten

Ausgehend von den vorliegenden Korpora kann eine recht genaue Klassifikation von unbekanntem Text durchgeführt werden. Dabei kann ein Text (oder ein Satz) einer Sprache, Subsprache oder einem Sachgebiet zugeordnet werden. Die Wortverteilungen in den Korpora der Abteilung dient dabei als Grundlage.Durch den “chinese Whisper” Algorithmus von Dr. Chris Biemann kann auch auf eine Wissensbasis verzichtet werden. Als konkrete Implementierung kommt jLanI (Java Language Identifier) zum Einsatz, was im Rahmen der Bachelorarbeit und darüber hinaus von Sven Teresniak entwickelt wurde. Der Klassifikator arbeitet automatisch, statistisch, nicht-überwacht, nicht-lernend und kommt ohne Negativbeispiele aus.

Ansprechpartner: Sven Teresniak