Verallgemeinertes Verfahren - Partitionierung zur effizienten Duplikaterkennung in relationalen Daten - page 61

Database Reference

In-Depth Information

Sortierte Tupel

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

P 1

u = p

4 =2

P 2

P 3

P 1

u = p

P 2

2 =4

P 3

P 4

Abbildung 6.1: Überlagerungen von Partitionen

„title1“ und „track01“ gebildet, wobei Leerzeichen entfernt und die Buchstaben in

Großbuchstaben umgewandelt sind. Die Sortierschlüssel unterscheiden sich durch

die Reihenfolge, in der die Attribute konkateniert werden.

Aus Abbildung 6.2 wird ersichtlich, dass durch die Sortierung fast 80% der ech-

ten Duplikate direkt nebeneinander liegen oder nur durch 1 Tupel getrennt sind.

Der verwendete Sortierschlüssel hat hierbei nur wenig Einfluss. Dies deckt sich mit

den Ergebnissen der Sorted-Neighborhood-Methode in Kapitel 5.2.3, die schon

bei kleinen Fenstern einen hohen Recall-Wert erreicht hat. Für die Entwicklung

des neuen Verfahrens wird zunächst angenommen, dass jedes Tupel mit den 2 vor-

herigen und 2 nachfolgenden Tupeln in der Sortierreihenfolge verglichen werden

soll, unabhängig ob diese in der gleichen oder einer benachbarten Partition liegen.

Es ist auch ein größerer Wert für die Überlagerung denkbar, allerdings sinkt der

Zugewinn an echten Duplikaten, die durch den Überlagerungsbereich abgedeckt

sind. Zunächst wird der Wert 2 verwendet, der spezifisch für die CD-Testdaten ist

und an späterer Stelle noch validiert wird. Bei anderen Datensätzen kann ein ge-

eigneter Wert größer oder kleiner sein. Dies ist jeweils durch eine Untersuchung

von Stichproben zu bestimmen.

Next Page

Partitionierung zur effizienten Duplikaterkennung in relationalen Daten

Search WWH ::

Custom Search

Home