Models of random text production for investigating repetition and reuse in language development (Diplomarbeit)
Status: beendetAbgabedatum: 31.07.2008
Beschreibung:
Externe Diplomarbeit am Max-Planck-Institut für Evolutionäre Anthropologie. Betreuer am MPI war Colin Bannard.
Kurzzusammenfassung:Diese Diplomarbeit untersucht etablierte Modelle zur Erzeugung von Zufallstexten. Sie geht der Frage nach, inwiefern diese Modelle in der Lage sind, die globalen statistischen Eigenschaften von Spracherwerbskorpora zu modellieren. Hierzu werden mittels implementierter Generatoren Zufallstexte erzeugt. Die generierten Zufallstexte werden mit natürlichsprachigen Texten hinsichtlich ihres Anteils an Wiederholung verglichen. Grundlage dieser Vergleiche sind Häufigkeitsverteilungen von Wörtern und Wortsequenzen sowie charakteristische Eigenschaften dieser Verteilungen in den jeweiligen Texten.
Die genutzten natürlichsprachigen Daten umfassen zwei Korpora mit transkribierter Sprache aus dem Bereich der Spracherwerbsforschung, sowie ein Referenzkorpus geschriebener Sprache. Bei der Untersuchung der Spracherwerbskorpora wird unterschieden zwischen der Kindersprache und der kindgerichteten Sprache (CDS, child-directed speech), jeweils für ein deutschsprachiges und ein englischsprachiges Kind.
Es werden zwei etablierte Zufallstextmodelle sowie ein kürzlich entwickeltes Modell eingesetzt. Bei den untersuchten Modellen handelt es sich um Miller’s Modell der “eingeschobenen Pausen” (“intermittent silence”) sowie Simons Modell zur Erzeugung schiefer Verteilungen (“skew distributions”). Weiterhin wird ein neueres Modell von Biemann untersucht.
Unsere Ergebnisse sind weitestgehend konsistent mit der existierenden Literatur zur Zufällstexterzeugung. So können wir folgendes beobachten:
- Der Anteil an Wortwiederholung in sowohl geschriebener Sprache als auch in Spracherwerbskorpora kann durch Zufallstexte modelliert werden. Allerdings verbleiben einige Abweichungen. Die etablierten Zufallstextmodelle neigen oftmals dazu, die Häufigkeiten der häufigsten Wörter überhöht darzustellen.
- Durch fehlende lokale Einschränkungen können weder Simons Modell noch Millers Modell realistische Häufigkeitsverteilungen für Wortsequenzen erzeugen.
Außerdem stellen wir folgendes fest:
- Millers Modell kann im Sinne der Informationstheorie re-interpretiert werden. Durch diese Re-Interpretation kann das Modell eine Bandbreite verschiedenartiger natürlichsprachiger Texte abdecken. Diese Interpretation wurde in der aktuellen Literatur vernachlässigt.
- Millers Modell ist unter bestimmten Parametrisierungen besser geignet, die Eigenschaften natürlicher Sprache widerzugeben, als dies zuletzt angenommen wurde.
- Die Modellierung von Spracherwerbskorpora als spezielle Textform birgt einige zusätzliche Schwierigkeiten, auch wenn die eingesetzten Modelle die charakteristischen Merkmale dieser Texte zumindest theoretisch erfolgreich modellieren können.
Hinsichtlich der hier untersuchten Kriterien scheint unter den drei untersuchten Zufallstextgeneratoren das Modell von Biemann am ehesten in der Lage, die charakteristischen Eigenschaften der untersuchten Texte realistisch zu modellieren. Da Biemanns Modell jedoch gleichzeitig das komplexeste unter den eingesetzten Modellen ist, steht eine formale Untersuchung seiner Fähigkeiten und Eigenschaften noch aus.
Autor: Frank BinderBetreuer: Prof. Dr. Gerhard Heyer | Ronny Melz