Dies ist die archivierte Webseite der ASV. Aktuellere Informationen finden Sie unter temir.org und über die Suchfunktion auf uni-leipzig.de
ASV-Label
Login

16px-feed-icon Verfahren der ASV View this page in English

Allgemeine Sprachstatistik

Sämtliche hier gezeigte Demonstrationsprogramme funktionieren durch einen Aufruf über die Kommandozeile (Java oder Perl Interpreter nötig). Sie sind entstanden als Projektarbeiten begleitend zur VL/Übung Computerlinguistik WS 2004/5.

Die Datenaufbereitung der ursprünglichen Textdokumente (bekannte Texte aus öffentlichen Quellen: Tom Sawyer, Hamlet, Schneewittchen und Faust) erfolgt mittels einfachen Parsern, zu finden in folgenden Archiven:
[ demo_2a.zip] Java
[ demo_2b.zip] Perl
Die Verteilung der Wörter folgt interessanterweise stets dem Zipfschen Gesetz. Die Programme folgender Archive berechnen Unigrammhäufigkeiten und stellen diese doppeltlogarithmisch graphisch dar:

[ demo_5.zip] mit lowercase-Konvertierung
[ demo_11.zip]
Markovketten approximieren durch gewichtete endliche Automaten menschliche Sprache. Interessant sind die Verteilungen von n-Tupeln diskreter Spracheinheiten, z.B. Buchstaben oder Wortformen. Letzteres findet Anwendung z.B. in der statistischen Spracherkennung.
• buchstabenbasiert, 1. + 2. Approximation (Verteilung + Bigramme)
Eine Liste je Dokument der 26 auftretenden Buchstaben + Leerzeichen, in einer zweiten Spalte deren Auftrittswahrscheinlichkeit, gerankt nach Auftrittswahrscheinlichkeit. Analog die 729 Bigramme. Eine kurze generierte Textdatei mit den gewonnenen statistischen Daten.
[ demo_1.zip]

• wortformbasiert, statt Buchstaben als Elemente; Eingangsdaten: die beiden deutschen Texte in lowercase.
[ demo_3.zip]

• buchstabenbasiert, min. 3. Approximation (Trigramme…)
Statt der kompletten 27000 möglichen Trigramme
[ demo_10.zip]

Ansprechpartner: Ronny Melz