Database Reference
In-Depth Information
5.2.3 Ergebnis Vergleichsdurchführung
Die Duplikaterkennung wurde für verschiedene Schwellwerte durchgeführt. Als
Schwellwert hat sich 0,78 als effektiv für die Klassifikation erwiesen. Bei diesem
erreichen Blocking, Sorted-Neighborhood-Methode und vollständiger Vergleich
im Vergleich zu anderen Schwellwerten jeweils gute Ergebnisse. Es wird somit
kein Verfahren benachteiligt, indem ein für das Verfahren ungünstiger Schwell-
wert verwendet wird. Die Ergebnisse von Blocking und der Sorted-Neighborhood-
Methode sind in Tabelle 5.5 und die des vollständigen Vergleichs in Tabelle 5.6
dargestellt. Die Paare der Partitionsgrößen ergeben sich aus Tabelle 5.3. Beim voll-
ständigen Vergleich ist noch zu unterscheiden, ob ebenfalls die transitive Hülle ge-
bildet wird oder nicht. Dies ist nicht unbedingt notwendig, da bereits alle Tupel
paarweise miteinander verglichen wurden und somit alle Duplikate erkannt sein
sollten. Aufgrund der Unschärfe der Ähnlichkeitsfunktion werden jedoch auch Tu-
pel fehlerhaft als Duplikate klassifiziert (false-positive). Durch Bilden der transiti-
ven Hülle verstärkt sich dieser Effekt, da fehlerhaft klassifizierte Duplikate durch
die Transitivität weitere Tupel fälschlicherweise als Duplikate klassifizieren.
Die Interpretation des Ergebnisses der Vergleichsdurchführung erfolgt anhand
der in Kapitel 2.5 vorgestellten Kennzahlen.
Search WWH ::




Custom Search