Database Reference
In-Depth Information
2 Duplikaterkennung
2.1 Einleitung
Daten liegen heutzutage zumeist nicht mehr zentral an einem physischen Ort vor,
sondern sind weltweit an jeweils lokalen Orten verteilt. Für einen vollständigen
Überblick über die Daten ist es notwendig, die verschiedenen Quellen zu integrie-
ren und in einer einheitlichen Sicht darzustellen. Dies ist Aufgabe der Datenin-
tegration, die jedoch dadurch erschwert wird, dass die Quellen verteilt, autonom
und heterogen sind 1 . Autonomie bedeutet, dass die Quellen unabhängig vonein-
ander erstellt und gepflegt werden. Die Autonomie der Quellen ist daher auch die
Ursache für die Heterogenität der Quellen. Bei struktureller Heterogenität ist ein
bestimmter Sachverhalt der Realwelt in zwei Quellen unterschiedlich modelliert.
Demgegenüber steht die semantische Heterogenität, bei der ein modellierter Sach-
verhalt in verschiedenen Systemen eine unterschiedliche Bedeutung hat. Die Lö-
sung dieser Heterogenitäten ist Aufgabe des Schema-Matchings.
Neben den Heterogenitäten auf Schema-Ebene existieren jedoch auch Hetero-
genitäten auf Datenebene. Ein klassisches Beispiel sind Kundendaten, die in ver-
schiedenen Systemen eines Unternehmens gespeichert sind. Für einen Kunden
können beispielsweise verschiedene Schlüssel existieren, durch die er identifiziert
wird. Datenheterogenitäten entstehen nicht nur bei der Integration verschiedener
Quellen, sondern treten auch in einer einzelnen Quelle auf. Zur Lösung der Da-
tenheterogenitäten werden Techniken der Duplikaterkennung und der Datenfusi-
on verwendet. Bleiholder und Schmidt 2 definieren Duplikate als „Datensätze, die
dasselbe Realweltobjekt beschreiben“. Eine Duplikatgruppe ist daher die „Men-
ge aller Datensätze, die dasselbe Realweltobjekt beschreiben“ 3 . Dabei bezeichnen
Realwelt-Objekte Elemente aus einem Universum von Objekten der Wirklichkeit,
die sich klar voneinander abgrenzen lassen 4 . Realwelt-Objekte haben folgende Ei-
genschaften 5 :
1 vgl. hierzu und zum Folgenden [8], S. 123
2 [8], S. 129
3 [8], S. 129
4 vgl. [26], S. 17
5 vgl. [26], S. 18
Search WWH ::




Custom Search