Sprachdatenressourcen – Deutscher Wortschatz, multilinguale Corpora und Wörter-des-Tages
Für die Bereitstellung von linguistischen Datenressourcen ist an der Abteilung in den letzten Jahren aus frei verfügbaren digitalen Quellen eine der größten digitalen Wörterbuchressourcen fürs Deutsche entstanden. Die Textdatenbanken umfassen Zeitungstext seit 1994 mit mehr als 50 Millionen Sätzen sowie einer Vielzahl sprachstatistischer Angaben (Projekt Deutscher Wortschatz). Hiervon sind aus rechtlichen Gründen jedoch nur jeweils die letzten zwei Jahre über das Internet zugänglich. Die Lieferung von speziell im Kundenauftrag gerechneten Daten für kommerzielle Anwendungen ist möglich.
In Verbindung mit ausländischen Partnern werden auch systematisch digitale Texte anderer Sprachen gesammelt, um textspezifische Merkmale von Sprachen zu entwickeln und Sprachen typologisch miteinander zu vergleichen (Corpora).
Die Textressourcen sind seit 2002 auch auf einer täglichen Basis verfügbar. Damit können der Kontext und die Verwendung von Wörtern diachron untersucht werden (Wörter-des-Tages).
Im Rahmen des CLARIN-D Projekts werden weitere Datenressourcen im Rahmen einer Service orientierten Architektur verfügbar gemacht.
Förderprogramm: Eigenfinanzierung aus Landesstellen und Industrieaufträgen
Kontakt: Prof. Dr. Uwe Quasthoff, Prof. Dr. Gerhard Heyer, Dr. Thomas Eckart, Dr. Dirk Goldhahn
Veröffentlichungen
- GH11 - Learning Semantic Relations from Text
- TMS09 - Text Mining Services – Building and applying text mining based service infrastructures in research and industry, Proceedings of the Conference on Text Mining Services – TMS 2009 at Leipzig University
- GH-TMS09 - Introduction
- RemAhmHey2009 - Sentiment in German-language News and Blogs, and the DAX
- BH09 - Leipzig Linguistic Services - A 4 Years Summary of Providing Linguistic Web Services
- EAQG14 - Large Arabic Web Corpora of High Quality: The Dimensions Time and Origin
- EHHQG14 - A 500 Million Word POS-Tagged Icelandic Corpus
- QGEHF14 - High Quality Word Lists as a Resource for Multiple Purposes
- QMMEGGM14 - Large Web Corpora of High Quality for Indian Languages
- EQ13 - Statistical Corpus and Language Comparison on Comparable Corpora
- EQG12 - Language Statistics-Based Quality Assurance for Large Corpora
- QE11 - Vergleichbarkeit von sprachstatistischen Messungen
- EQG12a - The Influence of Corpus Quality on Statistical Measurements on Language Resources
- EHQ2011 - Frequency Dictionary German - Häufigkeitswörterbuch Deutsch
- EHQ2012 - Frequency Dictionary Icelandic - Íslensk tiðniorðabók
- KEEQ2013 - Frequency Dictionary French - Dictionnaire de fréquence du français
- EKQ16 - Features for Generic Corpus Querying
- BHHQEK2016 - Quantitative and Qualitative Analysis in the work with African Languages
- GEQ17 - A Portal for Corpus Collection for Under-Resourced Languages
- EGQ17 - Using Corpus Query Engines for Facilitating Lexicographical Analysis of African Languages
- KE17 - Prozessmodellierung mittels BPMN in Forschungsinfrastrukturen der Digital Humanities
- BEFF17 - A Ten-Year Summary of a SOA-based Micro-services Infrastructure for Linguistic Services
- BEKGQ18 - Preparation and Usage of Xhosa Lexicographical Data for a Multilingual, Federated Environment
- KEQG18 - Automation, Management and Improvement of Text Corpus Production
- SE18 - Capabilities and Costs of Running NLP Pipeline on Big Data Resources in Service-Oriented Architectures
- BGEHQSH18 - Digital Infrastructure for Morpho-syntactic Analysis of Under-Resourced Languages - A Case Study for Luganda
- EGQB18 - Cross-Language Dictionary Alignment for Bantu Languages
- GEGQ19 - Frekwensiewoordeboek van Afrikaans - A new Frequency Dictionary for Afrikaans
- EBGQK19 - Translation-based Dictionary Alignment for Under-resourced Bantu Languages
- EGQG19 - Corpus-based Extraction of Word Relations from an Afrikaans Corpus
- ZGEL19 - OSIAN: Open Source International Arabic News Corpus - Preparation and Integration into the CLARIN-infrastructure
- QHKEGB20 - Typical Sentences as a Resource for Valence
- EBQKGK20 - Usability and Accessibility of Bantu Language Dictionaries in the Digital Age: Mobile Access in an Open Environment