Database Reference
In-Depth Information
Die Reduzierung des Suchraums ist der Schwerpunkt dieser Arbeit. Ein Ver-
gleich zwischen Blocking und Sorted-Neighborhood-Methode findet sich in Kapi-
tel 5.
Schritt 3: Auswahl einer Vergleichs-Funktion
Auswahl einer Funktion oder einer Menge von Regeln, die die Distanz zwischen
zwei Tupeln bestimmen. Je ähnlicher sich zwei Tupel sind, desto größer ist der
Wert der Vergleichsfunktion. Das einfachste Ähnlichkeitsmaß ist die Identität.
Ähnlichkeitsmaße werden in Kapitel 2.4 vorgestellt. Alternativ zu einer Vergleichs-
Funktion kann auch eine manuelle Entscheidung, ob zwei Tupel Duplikate sind,
verwendet werden.
Schritt 4: Anwendung des Entscheidungs-Modells
Klassifizierung der Tupel als Duplikate oder Nicht-Duplikate mit Hilfe der zu-
vor definierten Vergleichs-Funktion. Die Klassifizierung wird einerseits durch das
Ähnlichkeitsmaß, andererseits durch den verwendeten Schwellwert
beeinflusst.
θ
Setzt man
1, so werden nur identische Tupel als Duplikate klassifiziert. Dies
führt jedoch ggf. dazu, dass Duplikate übersehen werden. Nachdem alle Tupel
klassifiziert wurden, kann zusätzlich noch die transitive Hülle der Duplikate gebil-
det werden. Dies bedeutet, dass wenn die Elemente A und B sowie die Elemente
B und C als Duplikate erkannt wurden, so sind auch A und C Duplikate und die
Elemente A, B und C bilden daher eine Duplikatgruppe für ein Realwelt-Objekt.
Hierbei besteht jedoch die Gefahr, dass Elemente als Duplikate klassifiziert wer-
den, die eigentlich keine Duplikate sind. Dies liegt an der schrittweisen Entfernung
vom ursprünglichen Datensatz innerhalb der transitiven Kette 20 . Sind die beiden
Endelemente einer transitiven Kette keine Duplikate, so hat die Ähnlichkeitsfunk-
tion an einer Stelle der Kette versagt und Elemente fälschlicherweise als Duplikate
klassifiziert. Zur Lösung dieses Problems können die Elemente in einem manuel-
len Schritt explizit als Nicht-Duplikate klassifiziert werden 21 .
θ =
Schritt 5: Verifizierung des Ergebnisses
Prüfung der Effektivität des Ergebnisses. Wenn das Ergebnis nicht zufriedenstel-
lend ist, wird der Prozess ab Schritt 2 wiederholt. Eine Beschreibung von Kenn-
zahlen für die Verifizierung findet sich in Kapitel 2.5.
20 vgl. hierzu und zum Folgenden [19], S. 341f. Leser und Naumann geben als Beispiel die Kette
FATHER FOTHER MOTHER ≈ ... an, bei der die Elemente „ FATHER “ und „ MOTHER
offensichtlich keine Duplikate sind.
21 vgl. [10], S. 90
Search WWH ::




Custom Search