Dies ist die archivierte Webseite der ASV. Aktuellere Informationen finden Sie unter temir.org und über die Suchfunktion auf uni-leipzig.de
ASV-Label
Login

16px-feed-icon Verfahren der ASV View this page in English

Verfahren der Automatischen Sprachverarbeitung

Im Bereich der Verfahren und Algorithmen werden im wesentlichen statistische und musterbasierte Verfahren entwickelt. Für die theoretische Fundierung beziehen wir uns auf Konzepte des linguistischen Strukturalismus. An Stelle von formalen Sprachen verwenden wir Graphstrukturen für die Repräsentation und Verarbeitung linguistischen und nicht linguistischen Wissens und experimentieren mit small world networks. Die Verfahren, die wir für die Extraktion von domänenspezifischen Termen und Konzepten sowie die Ableitung von semantischen Relationen aus realen Texten einsetzen, basieren meist auf Verfahren des machine learning, des information retrieval und des Content- und Wissensmanagements. Für die Repräsentation und Verarbeitung von großen Mengen semantischer Information verwenden wir Topic Maps . Insbesondere haben wir Verfahren für die automatische Generierung von Topic Maps aus Text entwickelt.

Alle hier angebotenen Verfahren stehen unter der GNU General Public License (Version 2.0).


ASV Toolbox

Dr. Lydia Müller

ASV Toolbox is a modular collection of tools for the exploration of written language data.

Allgemeine Sprachstatistik

Ronny Melz

Sämtliche hier gezeigte Demonstrationsprogramme funktionieren durch einen Aufruf über die Kommandozeile (Java oder Perl Interpreter nötig). Sie sind entstanden als Projektarbeiten begleitend zur VL/Übung Computerlinguistik WS 2004/5.

Clustern von Wörtern

Jun. Prof. Dr. Chris Biemann

Es gibt vielfältige Möglichkeiten, Wörter anhand von Features zu clustern. In der ASV bestehen insbesondere Erfahrungen beim Clustern von Wort-Graphen

Erkennung von Eigennamen

Jun. Prof. Dr. Chris Biemann

Eine Vorstufe des Information Extraction ist die Named Entity Extraction, die sich mit dem Erkennen von Eigennamen in Texten befasst. Eine Unteraufgabe ist das Erkennen von Personennamen

Klassifizierung von Texten

Sven Teresniak

Ausgehend von den vorliegenden Korpora kann eine recht genaue Klassifikation von unbekanntem Text durchgeführt werden.

Lexikalische Disambiguierung

Dr. Stefan Bordag

Die Mehrdeutigkeit von Wörtern bereitet bei vielen Applikationen speziell im Information Retrieval Probleme.

Morphologische Analyse

Dr. Stefan Bordag

Ziel einer vollständigen morphologischen Analyse ist die Beschreibung und Nutzbarmachung der Struktur der Wörter.

Morphologische Grundformreduktion

Jun. Prof. Dr. Chris Biemann

Für viele Anwendungen der Automatischen Sprachverarbeitung ist es hilfreich, Wortformen, d.h. in verschiedenen Formen auftretende Varianten einer Grundform (z.B. Hauses, Häuser, Häusern zu Haus) zu deren Grundformen zu reduzieren.

Semantische Wortähnlichkeit

Dr. Stefan Bordag

Auf der Grundlage von Kookkurrenzen werden zu jedem Eingabewort semantisch ähnliche Wörter berechnet.

Terminologieextraktion

Dr. Hans Friedrich Witschel

Eine interessante Anwendung von Text-Mining-Verfahren bildet die sogenannte ‘Terminologie-Extraktion’, deren Ziel es ist, aus Fachtexten einer Domäne (halb-)automatisch die wichtigsten Fachtermini dieser Domäne zu extrahieren.

Vererben von Semantischen Eigenschaften

Jun. Prof. Dr. Chris Biemann

Unter der Annahme, dass Wörter mit ähnlichen semantischen Eigenschaften in ähnlichen Kontexten auftreten (Distributionale Hypothese von Harris), können Wörter, deren semantische Eigenschaften bekannt sind, diese via gleicher Kontexte auf noch unklassifizierte Wörter übertragen