ASV-Label
Login

16px-feed-icon Sprachdatenressourcen View this page in English

Sprachdatenressourcen

Im Bereich Daten ist an der Abteilung in den letzten Jahren aus frei verfügbaren digitalen Quellen eine der größten digitalen Wörterbuchressourcen fürs Deutsche entstanden. Die Textdatenbank umfasst Zeitungstext seit 1994 mit mehr als 50 Millionen Sätzen und gut 13 Millionen Wörtern (Wortschatz). Hiervon sind aus rechtlichen Gründen jedoch nur jeweils die letzten zwei Jahre über das Internet zugänglich.

In Verbindung mit ausländischen Partnern werden derzeit in einer systematischen Weise auch digitale Texte von anderen Sprachen gesammelt, um textspezifische Merkmale von Sprachen zu entwickeln und Sprachen typologisch miteinander zu vergleichen (Corpora ).

Die Textressourcen sind seit 2002 auch auf einer täglichen Basis verfügbar. Damit können der Kontext und die Verwendung von Wörtern diachron untersucht werden (Wort-des-Tages).

Im Rahmen des Projektvorhabens CLARIN-D werden weitere Datenressourcen im Rahmen einer Service orientierten Architektur verfügbar gemacht.