Database Reference
In-Depth Information
4 Windowing-Verfahren
Windowing-Verfahren reduzieren die Tupel-Vergleiche auf diejenigen Datensätze,
die innerhalb eines definierten Fensters liegen. Die Sorted-Neighborhood-Methode
wurde von Hernandez und Stolfo 1 entwickelt. Sorted-Neighborhood bedeutet über-
setzt „sortierte Nachbarschaft“ und basiert auf der Idee, dass die Datensätze zu-
nächst nach einem Schlüssel sortiert und anschließend nur noch Tupel miteinander
verglichen werden, die innerhalb einer definierten Nachbarschaft liegen.
4.1 Sorted-Neighborhood-Methode
Die Sorted-Neighborhood-Methode besteht aus drei Schritten:
1. Erzeugung eines Schlüssels
Zunächst wird ein Sortierschlüssel definiert. Hierfür werden relevante At-
tribute oder Bestandteile der Attribute konkateniert 2 (z.B. die ersten drei
Buchstaben des Nachnamens und die ersten beiden Buchstaben des Vorna-
mens).
2. Sortierung
Die Tupel werden anhand des in Schritt 1 gebildeten Schlüssels alphabe-
tisch sortiert. Wenn ein geeigneter Schlüssel verwendet wurde, liegen die
Duplikate nach der Sortierung dicht beieinander.
3. Duplikaterkennung
Es wird ein Fenster mit konstanter Länge w
3 über die sor-
tierte Liste geschoben. Der paarweise Vergleich wird nur für die Elemente
innerhalb des jeweiligen Fensters vorgenommen. Das Fenster definiert somit
die „Nachbarschaft“. Nachdem alle Elemente eines Fensters auf Duplikate
(
2
w
n
)
1 vgl. hierzu und zum Folgenden [15]
2 vgl. [8], S. 134
3 Im Falle von w = 2 werden nur direkt nebeneinander liegende Elemente miteinander verglichen. Bei
w
n sind alle Elemente in einem einzigen Fenster enthalten. In diesem Fall macht die Verwendung
des Sorted-Neighborhood-Algorithmus keinen Sinn, da keine Partitionierung der Gesamt-Menge
der Elemente erfolgt.
=
Search WWH ::




Custom Search