Database Reference
In-Depth Information
Sortierte Tupel
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
P 1
u = p
4 =2
P 2
P 3
P 1
u = p
P 2
2 =4
P 3
P 4
Abbildung 6.1: Überlagerungen von Partitionen
„title1“ und „track01“ gebildet, wobei Leerzeichen entfernt und die Buchstaben in
Großbuchstaben umgewandelt sind. Die Sortierschlüssel unterscheiden sich durch
die Reihenfolge, in der die Attribute konkateniert werden.
Aus Abbildung 6.2 wird ersichtlich, dass durch die Sortierung fast 80% der ech-
ten Duplikate direkt nebeneinander liegen oder nur durch 1 Tupel getrennt sind.
Der verwendete Sortierschlüssel hat hierbei nur wenig Einfluss. Dies deckt sich mit
den Ergebnissen der Sorted-Neighborhood-Methode in Kapitel 5.2.3, die schon
bei kleinen Fenstern einen hohen Recall-Wert erreicht hat. Für die Entwicklung
des neuen Verfahrens wird zunächst angenommen, dass jedes Tupel mit den 2 vor-
herigen und 2 nachfolgenden Tupeln in der Sortierreihenfolge verglichen werden
soll, unabhängig ob diese in der gleichen oder einer benachbarten Partition liegen.
Es ist auch ein größerer Wert für die Überlagerung denkbar, allerdings sinkt der
Zugewinn an echten Duplikaten, die durch den Überlagerungsbereich abgedeckt
sind. Zunächst wird der Wert 2 verwendet, der spezifisch für die CD-Testdaten ist
und an späterer Stelle noch validiert wird. Bei anderen Datensätzen kann ein ge-
eigneter Wert größer oder kleiner sein. Dies ist jeweils durch eine Untersuchung
von Stichproben zu bestimmen.
 
Search WWH ::




Custom Search