Klassifizierung von Texten
Ausgehend von den vorliegenden Korpora kann eine recht genaue Klassifikation von unbekanntem Text durchgeführt werden. Dabei kann ein Text (oder ein Satz) einer Sprache, Subsprache oder einem Sachgebiet zugeordnet werden. Die Wortverteilungen in den Korpora der Abteilung dient dabei als Grundlage.Durch den “chinese Whisper” Algorithmus von Dr. Chris Biemann kann auch auf eine Wissensbasis verzichtet werden. Als konkrete Implementierung kommt jLanI (Java Language Identifier) zum Einsatz, was im Rahmen der Bachelorarbeit und darüber hinaus von Sven Teresniak entwickelt wurde. Der Klassifikator arbeitet automatisch, statistisch, nicht-überwacht, nicht-lernend und kommt ohne Negativbeispiele aus.
Ansprechpartner: Sven Teresniak