Database Reference
In-Depth Information
der Tupelvergleiche des Blockings. Der Hauptspeicherbedarf ist gering, er beträgt
maximal die Größe der Tupel einer Partition.
Mehrere Durchläufe des verallgemeinerten Verfahrens mit unterschiedlichen
Partitionsgrößen für die CD-Testdaten zeigen, dass die Precision des verallgemei-
nerten Verfahrens vergleichbar mit der Precision des Blockings und der Sorted-
Neighborhood-Methode ist. Beim Recall bestehen jedoch Unterschiede. Für die
gleiche Anzahl von Tupelvergleichen ist der Recall-Wert des verallgemeinerten
Verfahrens zunächst identisch mit der Sorted-Neighborhood-Methode bzw. er liegt
darüber. Dies liegt einerseits an größeren Partitionen, andererseits wird durch die
Überlagerung sichergestellt, dass echte Duplikate an den Partitionsgrenzen nicht
unberücksichtigt bleiben. Erst bei großen Partitionen liegt die Sorted-Neighbor-
hood-Methode teilweise über dem des verallgemeinerten Verfahrens. Dies liegt
daran, dass feste Partitionsgrößen für das verallgemeinerte Verfahren verwendet
wurden und keine an den Attributwerten ausgerichtete Partitionierung. Hierbei
können weit entfernte Tupel eines echten Duplikats teilweise in einer gemeinsa-
men und teils in unterschiedlichen Partitionen liegen. Die Sorted-Neighborhood-
Methode deckt diesen Fall besser ab. Der Recall-Wert des Blockings bleibt stets
unter dem des verallgemeinerten Verfahrens.
Für die Effizienz des verallgemeinerten Verfahrens bedeutet dies, dass diese bei
einer gleichen Anzahl von Tupelvergleichen stets über der des Blockings liegt.
Im Vergleich zur Sorted-Neighborhood-Methode ist die Effizienz zunächst gleich
bzw. höher. Erst bei großen Partitionen und einer dementsprechenden hohen An-
zahl an Tupelvergleichen erzielt die Sorted-Neighborhood-Methode teilweise bes-
sere Ergebnisse.
Eine Validierung des verallgemeinerten Verfahrens ist bisher nur für die CD-
Testdaten erfolgt. Um eine allgemeingültige Aussage zu den Ergebnissen, speziell
den Vergleich zur Sorted-Neighborhood-Methode zu treffen, sollten weitere Test-
datensätze herangezogen werden. Interessant sind speziell größere Datenmengen,
um zu untersuchen, ob dies die Ergebnisse des verallgemeinerten Verfahrens bei
größeren Partitionen verbessert. Weiterhin sollte geprüft werden, welche Ergeb-
nisse das verallgemeinerte Verfahren erzielt, wenn statt fester Partitionsgrößen ei-
ne an den Attributwerten ausgerichtete Partitionierung erfolgt. Insbesondere bei
großen Partitionen, bei denen die Sorted-Neighborhood-Methode in der beschrie-
benen Untersuchung teilweise bessere Ergebnisse erzielte, sollte hierbei eine Ver-
besserung des Recalls und damit der Effizienz möglich sein.
Diese Arbeit konzentrierte sich auf jeweils einen einzigen Durchlauf der Ver-
fahren. Ein weiterer interessanter Untersuchungsaspekt sind die Auswirkungen bei
Verwendung mehrerer Durchläufe mit unterschiedlichen Sortierschlüsseln (Multi-
Pass-Methode) auf die Ergebnisse und Effizienz der Verfahren. Bei Multi-Pass-
Search WWH ::




Custom Search