Zusammenfassung - Partitionierung zur effizienten Duplikaterkennung in relationalen Daten

Database Reference

In-Depth Information

der Tupelvergleiche des Blockings. Der Hauptspeicherbedarf ist gering, er beträgt

maximal die Größe der Tupel einer Partition.

Mehrere Durchläufe des verallgemeinerten Verfahrens mit unterschiedlichen

Partitionsgrößen für die CD-Testdaten zeigen, dass die Precision des verallgemei-

nerten Verfahrens vergleichbar mit der Precision des Blockings und der Sorted-

Neighborhood-Methode ist. Beim Recall bestehen jedoch Unterschiede. Für die

gleiche Anzahl von Tupelvergleichen ist der Recall-Wert des verallgemeinerten

Verfahrens zunächst identisch mit der Sorted-Neighborhood-Methode bzw. er liegt

darüber. Dies liegt einerseits an größeren Partitionen, andererseits wird durch die

Überlagerung sichergestellt, dass echte Duplikate an den Partitionsgrenzen nicht

unberücksichtigt bleiben. Erst bei großen Partitionen liegt die Sorted-Neighbor-

hood-Methode teilweise über dem des verallgemeinerten Verfahrens. Dies liegt

daran, dass feste Partitionsgrößen für das verallgemeinerte Verfahren verwendet

wurden und keine an den Attributwerten ausgerichtete Partitionierung. Hierbei

können weit entfernte Tupel eines echten Duplikats teilweise in einer gemeinsa-

men und teils in unterschiedlichen Partitionen liegen. Die Sorted-Neighborhood-

Methode deckt diesen Fall besser ab. Der Recall-Wert des Blockings bleibt stets

unter dem des verallgemeinerten Verfahrens.

Für die Effizienz des verallgemeinerten Verfahrens bedeutet dies, dass diese bei

einer gleichen Anzahl von Tupelvergleichen stets über der des Blockings liegt.

Im Vergleich zur Sorted-Neighborhood-Methode ist die Effizienz zunächst gleich

bzw. höher. Erst bei großen Partitionen und einer dementsprechenden hohen An-

zahl an Tupelvergleichen erzielt die Sorted-Neighborhood-Methode teilweise bes-

sere Ergebnisse.

Eine Validierung des verallgemeinerten Verfahrens ist bisher nur für die CD-

Testdaten erfolgt. Um eine allgemeingültige Aussage zu den Ergebnissen, speziell

den Vergleich zur Sorted-Neighborhood-Methode zu treffen, sollten weitere Test-

datensätze herangezogen werden. Interessant sind speziell größere Datenmengen,

um zu untersuchen, ob dies die Ergebnisse des verallgemeinerten Verfahrens bei

größeren Partitionen verbessert. Weiterhin sollte geprüft werden, welche Ergeb-

nisse das verallgemeinerte Verfahren erzielt, wenn statt fester Partitionsgrößen ei-

ne an den Attributwerten ausgerichtete Partitionierung erfolgt. Insbesondere bei

großen Partitionen, bei denen die Sorted-Neighborhood-Methode in der beschrie-

benen Untersuchung teilweise bessere Ergebnisse erzielte, sollte hierbei eine Ver-

besserung des Recalls und damit der Effizienz möglich sein.

Diese Arbeit konzentrierte sich auf jeweils einen einzigen Durchlauf der Ver-

fahren. Ein weiterer interessanter Untersuchungsaspekt sind die Auswirkungen bei

Verwendung mehrerer Durchläufe mit unterschiedlichen Sortierschlüsseln (Multi-

Pass-Methode) auf die Ergebnisse und Effizienz der Verfahren. Bei Multi-Pass-

Search WWH ::

Custom Search

Home