Database Reference
In-Depth Information
In Kapitel 3 wurden alternative Blocking-Methoden vorgestellt. Im Folgenden
wird zur Vereinfachung davon ausgegangen, dass das Blocking durch eine Sortie-
rung und nicht durch Hashing realisiert ist und jeder Block die gleiche Anzahl an
Elementen enthält. Der Blockingschlüssel erfüllt also die Anforderung, die Daten-
sätze möglichst gleichmäßig auf die Blöcke zu verteilen. In der Praxis wird dies
nicht immer möglich sein.
In Abbildung 5.1 sind die beiden Ansätze noch einmal dargestellt. Bei einer
Block- bzw. Fenstergröße von 3 werden 7 Fenster ( F 1 bis F 7 ) für die Sorted-
Neighborhood-Methode bzw. drei Blöcke ( B 1 bis B 3 ) für die Blocking-Methode
verwendet.
Fens ter
F 3
F 6
F 2
F 5
F 1
F 4
F 7
Datensatze
1
2
3
4
5
6
7
8
9
B 1
B 2
B 3
Blocke
Abbildung 5.1: Ansätze der Blocking- und Windowing-Verfahren
Die Duplikaterkennung findet bei beiden Verfahren paarweise für alle Tupel in-
nerhalb eines Blocks bzw. Fensters statt. Hierbei sind die Mengen der miteinander
verglichenen Tupelpaare beider Verfahren jedoch nicht identisch. Dies soll im Fol-
genden anhand eines Beispiels in Abbildung 5.2 dargestellt werden. Gegeben sei-
en 20 Tupel, die anhand eines Sortierschlüssels in eine Reihenfolge gebracht sind.
Bei beiden Verfahren werden Tupel nicht mit sich selber verglichen. Die Sorted-
Neighborhood-Methode ist durch grau gefärbte Kästchen für eine Fenstergröße
w
3 dargestellt. Das Blocking wird durch eine dicke Einrahmung der Blöcke mit
jeweils 5 Tupeln dargestellt.
Sei F i die Menge der Tupelvergleiche eines Fensters, dann ist die Gesamtmenge
der Tupelvergleiche in diesem Beispiel F
=
F 18 . Analog ist B i
die Menge der Tupelvergleiche eines Blocks und für die Gesamtmenge der Tupel-
vergleiche gilt B
=
F 1
F 2
F 3 ∪ ... ∪
B 4 . In Tabelle 5.1 sind die Tupelvergleiche der
einzelnen Fenster bzw. Blöcke dargestellt. Dabei ist
=
B 1
B 2
B 3
40.
Bildet man die Differenz der Mengen B und F , so ergeben sich die Tupelver-
gleiche, die nur durch ein Verfahren abgedeckt werden. Für das oben beschrie-
|
F
| =
37 und
|
B
| =
 
Search WWH ::




Custom Search