Methods
In the field of methods and algorithms we mainly apply statistical and pattern based methods. For the theoretical foundation we refer to notions of linguistic structuralism. Instead of formal languages, we take graph structures and experiment with small world networks, both for the representation and processing of linguistic and non-linguistic knowledge. The methods we employ for the extraction of domain specific terms and concepts, their interrelations and distribution in real texts are mainly derived from machine learning, information retrieval, and content and knowledge management. To represent and process large scale semantic information we use Topic Maps . We also have developed methods to automatically generate topic maps from text.
All methods offered are licensed under the GNU General Public License (Version 2.0).
ASV Toolbox
ASV Toolbox is a modular collection of tools for the exploration of written language data.
Classification of texts
Sven Teresniak
On the basis of the available Korpora a quite exact classification can be accomplished by unknown text.
Cluster of words
Cluster of words
Identification of proper names
Eine Vorstufe des Information Extraction ist die Named Entity Extraction, die sich mit dem Erkennen von Eigennamen in Texten befasst. Eine Unteraufgabe ist das Erkennen von Personennamen
Inheritance of semantic properties
Unter der Annahme, dass Wörter mit ähnlichen semantischen Eigenschaften in ähnlichen Kontexten auftreten (Distributionale Hypothese von Harris), können Wörter, deren semantische Eigenschaften bekannt sind, diese via gleicher Kontexte auf noch unklassifizierte Wörter übertragen
Language statistics
Sämtliche hier gezeigte Demonstrationsprogramme funktionieren durch einen Aufruf über die Kommandozeile (Java oder Perl Interpreter nötig). Sie sind entstanden als Projektarbeiten begleitend zur VL/Übung Computerlinguistik WS 2004/5.
Lexical disambiguation
Die Mehrdeutigkeit von Wörtern bereitet bei vielen Applikationen speziell im Information Retrieval Probleme.
Morpheme Analysis
The goal of a complete morphological analysis is to describe and be able to utilize the structure of words.
Morphological lemma reduction
Für viele Anwendungen der Automatischen Sprachverarbeitung ist es hilfreich, Wortformen, d.h. in verschiedenen Formen auftretende Varianten einer Grundform (z.B. Hauses, Häuser, Häusern zu Haus) zu deren Grundformen zu reduzieren.
Semantic Occurrence
Auf der Grundlage von Kookkurrenzen werden zu jedem Eingabewort semantisch ähnliche Wörter berechnet.
Terminology Extraction
Eine interessante Anwendung von Text-Mining-Verfahren bildet die sogenannte ‘Terminologie-Extraktion’, deren Ziel es ist, aus Fachtexten einer Domäne (halb-)automatisch die wichtigsten Fachtermini dieser Domäne zu extrahieren.