Database Reference
In-Depth Information
Bei Betrachtung von Kosten und Nutzen des Blockings ist die gesparte Zeit
und Rechenleistung für die Duplikaterkennung einer sinkenden Effektivität ge-
genüberzustellen. Der Blocking-Schlüssel sollte daher so gewählt werden, dass
der Recall nicht signifikant sinkt. Die Auswahl eines geeigneten Schlüssels ist ei-
ne nicht-triviale domänenspezifische Aufgabe, die meistens manuell erfolgt. Es
können mehrere sinnvolle Schlüssel existieren, daher schlagen Bilenko et al. 5 vor,
die optimale Blockingmethode automatisiert zu erlernen. Eine Untersuchung zur
Auswahl der besten Blockingmethode stammt auch von Kelley 6 . Statt der Ver-
wendung eines einzigen Blocking-Schlüssels, können auch Multi-Pass-Techniken
eingesetzt werden, d.h. die mehrfache Ausführung der Duplikaterkennung mit je-
weils einem anderen Blocking-Schlüssel 7 . Dies erhöht jedoch wieder die Anzahl
der durchgeführten Vergleiche, wodurch die Effizienz sinkt.
5 vgl. [7]
6 vgl. [18]
7 vgl. [13], S. 11 und [17], S. 415
Search WWH ::




Custom Search