Databases Reference
In-Depth Information
5.2 Schritt 2: Dublettenerkennung
Durch das vorausgegangene Schema Matching wurde
eine einheitliche Darstellung der Objekte erreicht. An-
schaulich gesprochen sind wir nun in der Lage, die Da-
tensätze aller Quellen in einer Tabelle zusammenzufüh-
ren (Outer Union, siehe Tabelle 3). Nun wird es i.d.R. aber
so sein, dass in den zusammenzuführenden Datenbestän-
den dieselben Objekte mehrfach enthalten sind. In unse-
rem Beispiel kann eine Person sowohl eine Lebensversi-
cherung als auch eine Kfz-Versicherung abgeschlossen
haben. Dies hat zur Folge, dass ein Realweltobjekt (im
Beispiel: eine Person) durch mehrere Datensätze reprä-
sentiert wird, z.B. Jan Marten durch die Datensätze mit
den IDs 1 und 8. Datensätze, die dasselbe Realweltob-
jekt beschreiben, heißen Dubletten . Die Menge aller
Datensätze, die dasselbe Realweltobjekt beschreiben wird
als Dublettengruppe bezeichnet.
Dubletten entstehen nicht nur durch Zusammenführen von Datenbeständen, son-
dern sind auch innerhalb eines Datenbestandes zu finden, wenn bei Neuanlage
und Änderung von Datensätzen nicht die erforderlichen Gegenmaßnahmen getrof-
fen wurden.
Das Problem der Dublettenerkennung stellt sich demnach wie folgt dar:
Anwendung
Visualisierung/Export
Datenfusion
Dublettenerkennung
Schema Matching
Vorverarbeitung
Datenquellen
Problem (Dublettenerkennung): Gegeben eine Tabelle mit unterschiedlichen Repräsenta-
tionen von Realweltobjekten, erzeuge eine Spalte mit ID-Werten so, dass gleichen Real-
weltobjekten gleiche ID-Werte zugewiesen werden.
5.2.1 Auswirkungen von Dubletten
Die Tatsache, dass einige Objekte durch mehrere Datensätze repräsentiert werden,
macht es bereits unmöglich, die Anzahl der Objekte durch einfaches Zählen der
Datensätze zu bestimmen. Sie liegt irgendwo unterhalb der Anzahl der Datensätze,
der genaue Wert ist unbekannt.
Werden an einem Datensatz, zu dem es Dubletten gibt, Änderungen vorgenom-
men, führt dies zu Inkonsistenzen, da in den Dubletten noch die alten Werte ge-
speichert sind. Ähnlich verheerend ist der Effekt beim Löschen eines Datensatzes
einer Dublettengruppe. In diesem Fall wird durch das Löschen des Datensatzes
das repräsentierte Objekt nicht vollständig aus dem Bestand entfernt, da die Dub-
letten weiterhin im Datenbestand vorhanden sind.
Search WWH ::




Custom Search