ASV-Label
Login

16px-feed-icon Laufende Projekte View this page in English

Sprachdatenressourcen – Deutscher Wortschatz, multilinguale Corpora und Wörter-des-Tages

Für die Bereitstellung von linguistischen Datenressourcen ist an der Abteilung in den letzten Jahren aus frei verfügbaren digitalen Quellen eine der größten digitalen Wörterbuchressourcen fürs Deutsche entstanden. Die Textdatenbanken umfassen Zeitungstext seit 1994 mit mehr als 50 Millionen Sätzen sowie einer Vielzahl sprachstatistischer Angaben (Projekt Deutscher Wortschatz: http://wortschatz.uni-leipzig.de). Hiervon sind aus rechtlichen Gründen jedoch nur jeweils die letzten zwei Jahre über das Internet zugänglich. Die Lieferung von speziell im Kundenauftrag gerechneten Daten für kommerzielle Anwendungen ist möglich.

In Verbindung mit ausländischen Partnern werden auch systematisch digitale Texte anderer Sprachen gesammelt, um textspezifische Merkmale von Sprachen zu entwickeln und Sprachen typologisch miteinander zu vergleichen (Corpora).

Die Textressourcen sind seit 2002 auch auf einer täglichen Basis verfügbar. Damit können der Kontext und die Verwendung von Wörtern diachron untersucht werden (Wort-des-Tages).

Im Rahmen des CLARIN-D Projekts werden weitere Datenressourcen im Rahmen einer Service orientierten Architektur verfügbar gemacht.
Darüber hinaus sind über die Abteilung im Rahmen des eAQUA Projekts auch digitale antike Textressourcen verfügbar (eAQUA).


Förderprogramm: Eigenfinanzierung aus Landesstellen und Industrieaufträgen

Kontakt: Prof. Dr. Uwe Quasthoff, Prof. Dr. Gerhard Heyer, Thomas Eckart, Dirk Goldhahn, Christoph Kuras

Veröffentlichungen