Database Reference
In-Depth Information
Bei Betrachtung von Kosten und Nutzen des Blockings ist die gesparte Zeit
und Rechenleistung für die Duplikaterkennung einer sinkenden Effektivität ge-
genüberzustellen. Der Blocking-Schlüssel sollte daher so gewählt werden, dass
der Recall nicht signifikant sinkt. Die Auswahl eines geeigneten Schlüssels ist ei-
ne nicht-triviale domänenspezifische Aufgabe, die meistens manuell erfolgt. Es
können mehrere sinnvolle Schlüssel existieren, daher schlagen Bilenko et al.
5
vor,
die optimale Blockingmethode automatisiert zu erlernen. Eine Untersuchung zur
Auswahl der besten Blockingmethode stammt auch von Kelley
6
. Statt der Ver-
wendung eines einzigen Blocking-Schlüssels, können auch Multi-Pass-Techniken
eingesetzt werden, d.h. die mehrfache Ausführung der Duplikaterkennung mit je-
weils einem anderen Blocking-Schlüssel
7
. Dies erhöht jedoch wieder die Anzahl
der durchgeführten Vergleiche, wodurch die Effizienz sinkt.
5
vgl. [7]
6
vgl. [18]
7
vgl. [13], S. 11 und [17], S. 415
Search WWH ::
Custom Search