Datenintegration heterogener Quellen im Kontext der eHumanities (Bachelorarbeit)
Status: beendetAbgabedatum: 2010-03-17
Abstract:
Im Bereich der eHumanities liegen relevante Datenressourcen wie Textkorpora in unterschiedlichsten (meist XML-basierten) Formaten vor. Dies erschwert die Vereinheitlichung vorhandener Daten, die Identifikation gleicher Angaben und somit den Aufbau homogener Datenbestände.
Vorhandene Verfahren, insbesondere aus dem Bereich des Data Warehousings, werden auf ihre Verwendbarkeit in der Domäne der eHumanities überprüft. Ziel ist ein Werkzeug, das strukturell-heterogene XML-Dokumente vergleicht und inhaltlich gleiche oder ähnliche Elemente identifiziert. Das Ergebnis sind Abbildungen auf Dokumentenstrukturebene, welche Grundlagen für neue homogene Ressourcen sind.
Author: David PanschAdvisor: Prof. Dr. Gerhard Heyer | Dr. Thomas Eckart