Database Reference
In-Depth Information
1. Sie sind eindeutig anhand ihrer Vergangenheit, Eigenschaften und Bezie-
hungen zu anderen Realwelt-Objekten identifizierbar. Die Menge der Ei-
genschaften ist beliebig und veränderlich.
2. Realwelt-Objekte haben einen Lebenszyklus, d.h., es gibt einen Start- und
Endzeitpunkt ihrer Existenz.
3. Sie existieren unabhängig von anderen Realwelt-Objekten.
Die hohe Variabilität von Realwelt-Objekten bzgl. ihrer Eigenschaften und Bezie-
hungen lässt sich bei der elektronischen Speicherung der Daten in Datenbanken
nur begrenzt realisieren. Es erfolgt daher eine Modellbildung, bei der bestimmte
Eigenschaften und Beziehungen ausgewählt werden. Die in einer Relation ent-
haltenen Daten sind also nur eine Teilmenge sämtlicher Daten eines Realwelt-
Objekts.
Aufgabe der Duplikaterkennung bei relationalen Daten ist es, in einer Tabelle
mit verschiedenen Repräsentationen von Realwelt-Objekten eine Spalte mit ID-
Werten zu erzeugen, so dass gleichen Realwelt-Objekten die gleichen ID-Werte
zugewiesen werden 6 . Gegeben sind zwei Datenbanken A 1 und A 2 , die Elemente
mit Daten über ein Universum von Realwelt-Objekten enthalten. Es sind genau
die Paare von Elementen
a )
b )
(
a
,
A 1 ×
A 1 ,
(
b
,
A 2 ×
A 2 sowie
(
a
,
b
)
A 1 ×
A 2
zu finden, die sich jeweils auf ein und dasselbe Realwelt-Objekt beziehen 7 .
Das Grundprinzip der Duplikaterkennung ist der paarweise Vergleich aller Tu-
pel. Aus dem Vergleich lässt sich eine Maßzahl für die Ähnlichkeit zweier Tupel
ableiten, wobei ein Schwellwert festlegt, ob die Tupel als Duplikat klassifiziert
werden. Für eine Relation lässt sich die Duplikaterkennung anhand eines SQL-
Befehls darstellen 8 :
SELECT C1 . *
,C2. *
FROM R AS C1
,RAS C2
WHERE sim (C1,C2) =>
θ
In der -Klausel wird die Ähnlichkeit zweier Tupel anhand der Ähnlich-
keitsfunktion sim ermittelt. Ist der von der Ähnlichkeitsfunktion berechnete Wert
6 vgl. [8], S. 129
7 vgl. [26], S. 4
8 vgl. [19], S. 330 f.
 
Search WWH ::




Custom Search