Dies ist die archivierte Webseite der ASV. Aktuellere Informationen finden Sie unter temir.org und über die Suchfunktion auf uni-leipzig.de
ASV-Label
Login

16px-feed-icon Verfahren der ASV View this page in English

Semantische Wortähnlichkeit

Für fast alle Sprachen lassen sich einige Gemeinsamkeiten beobachten:
sie haben Sätze
sie haben Wortformen
Sätze bestehen aus Wortfomen
Wortformen werden nicht willkürlich zu Sätzen kombiniert
Diese wenigen Gemeinsamkeiten reichen bereits aus, um eine erste Näherung an die Bedeutung eines beliebigen Wortes bestimmen zu können. Dafür muss lediglich beobachtet werden, mit welchen anderen Worten es signifikant häufig auftritt. Diese Menge der anderen Wörter kann einfach als “die Kookkurrenzen von dem Wort” bezeichnet werden.
Wenn nun zwei zunächst verschiedene Wortformen sehr ähnliche Mengen von Signifikanten Kookkurrenzen besitzen, ähneln sie sich in ihrem Gebrauch. Oder ander ausgedrückt, sie sind unter Umständen sogar gegeneinander austauschbar. Diese grundlegende Herangehensweise erlaubt es, Programme zu schreiben, die berechnen welche Wörter einander vermutlich semantisch ähnlich sind. Das Verfahren ist dabei wie folgt:
Zuerst müssen alle Sätze aus den Texten extrahiert werden
In dieses Sätzen werden dann z.B. mittels des Medusa Programms von Marco Büchler die Satzkookkurrenzen gemessen
Anschliessend wird jedes Wort mit jedem anderen auf kontextuelle Ähnlichkeit verglichen. Da es zu aufwendig und obendrein unnötig wäre, wirklich jedes mit jedem Wort zu vergleichen, reicht es wie in diesem Programm vielversprechende Kandidaten miteinander zu vergleichen.
Die Ergebnisse sind dabei intuitiv sehr gut. Allerdings gibt es folgende starke Einflussfaktoren:
Die Korpusgrösse gibt an, wie gut die Ergebnisse sind. Ein einzelner Text liefert nur für sehr wenige Wörter genug Belegstellen, dass etwas wie ein typischer Gebrauch beobachtet werden kann. Je grösser das Korpus, umso besser die Ergebnisse. Dieser Zusammenhang wurde z.B. in der Dissertation von Stefan Bordag nachgewiesen. Die Qualität der Ergebnisse nimmt dabei Logarithmisch zu und es zeigte sich, dass etwa 20 Millionen Sätze eine ausreichende Menge ist, um für die meisten gebräuchlichen Wörter gute Ergebnisse zu erzielen.
Der Inhalt des Korpus gibt an, welche Arten von Ähnlichkeiten gefunden werden. Ein gutes Beispiel ist zu überlegen, welches wohl das ähnlichste Wort zu “Baum” sein sollte. Intuitiv würden die meisten wohl etwas wie “Strauch” oder “Pflanze” sagen. Wenn der zugrundeliegende Korpus allerdings nur aus Nachrichtentexten besteht, dann würde mit grosser Wahrscheinlichkeit etwas wie “Leitplanke”, “Pfosten” oder andere Dinge, an denen Unfälle geschehen herauskommen.
Begrenzt ist es möglich, die Ähnlichkeitsdaten dazu zu nutzen, um herauszufinden, welche Übergeordneten Begriffe für ein gegebenes Wort die richtigen sind (also für “Elefant” zum Beispiel “Tier”). Ein entsprechendes Programm findet sich hier. Allerdings ist das noch sehr experimentell.
Zufällig ausgewählte Beispiele für Ergebnisse aus einem Webkorpus, welches lediglich 5 Millionen Sätze enthielt (etwa 500MB plain text):

eröffnen neue Perspektiven erschließen eröffnete eröffne Wertesystem Eröffnen Tagungsplanung
Arbeitgeber Arbeitnehmers Arbeitsvertrag Arbeitgebers Arbeitsverhältnisses Pensionskasse Mieter
internationale internationaler nationale europäischen Staaten Internationalität Organisationen Nationen
Analyse Auswertung Handlungsempfehlungen systematische Bedarfsanalyse Systemanalyse

Wie hier auch leicht zu sehen ist, können die Ergebnisse für konkrete Anwendungen noch deutlich aufgewertet werden, wenn anschliessend nur Wörter der gleichen Wortklasse zugelassen werden, sowie wenn andere Wortformen des gleichen Wortes erkannt werden (Arbeitgeber und Arbeitgebers).

Ansprechpartner: Dr. Stefan Bordag