Allgemeine Sprachstatistik
Sämtliche hier gezeigte Demonstrationsprogramme funktionieren durch einen Aufruf über die Kommandozeile (Java oder Perl Interpreter nötig). Sie sind entstanden als Projektarbeiten begleitend zur VL/Übung Computerlinguistik WS 2004/5.
Die Datenaufbereitung der ursprünglichen Textdokumente (bekannte Texte aus öffentlichen Quellen: Tom Sawyer, Hamlet, Schneewittchen und Faust) erfolgt mittels einfachen Parsern, zu finden in folgenden Archiven:
[ demo_2a.zip] Java
[ demo_2b.zip] Perl
Die Verteilung der Wörter folgt interessanterweise stets dem Zipfschen Gesetz. Die Programme folgender Archive berechnen Unigrammhäufigkeiten und stellen diese doppeltlogarithmisch graphisch dar:
[ demo_5.zip] mit lowercase-Konvertierung
[ demo_11.zip]
Markovketten approximieren durch gewichtete endliche Automaten menschliche Sprache. Interessant sind die Verteilungen von n-Tupeln diskreter Spracheinheiten, z.B. Buchstaben oder Wortformen. Letzteres findet Anwendung z.B. in der statistischen Spracherkennung.
• buchstabenbasiert, 1. + 2. Approximation (Verteilung + Bigramme)
Eine Liste je Dokument der 26 auftretenden Buchstaben + Leerzeichen, in einer zweiten Spalte deren Auftrittswahrscheinlichkeit, gerankt nach Auftrittswahrscheinlichkeit. Analog die 729 Bigramme. Eine kurze generierte Textdatei mit den gewonnenen statistischen Daten.
[ demo_1.zip]
• wortformbasiert, statt Buchstaben als Elemente; Eingangsdaten: die beiden deutschen Texte in lowercase.
[ demo_3.zip]
• buchstabenbasiert, min. 3. Approximation (Trigramme…)
Statt der kompletten 27000 möglichen Trigramme
[ demo_10.zip]