Database Reference
In-Depth Information
5.2.2 Beschreibung Testdatensätze, Sortierschlüssel und
Ähnlichkeitsfunktion
Als Testdaten werden 9.763 Tupel mit Informationen über CDs verwendet, die
stichprobenhaft aus freeDB 6 extrahiert wurden. Zusätzlich steht eine Liste der ech-
ten Duplikate zur Verfügung (insgesamt 298). Die Attribute der CDs sind auszugs-
weise in Tabelle 5.4 beschrieben. Die Titel der Lieder gehen bis Lied 99, jedoch
ist der Füllgrad ab Lied 16 unter 5% bzw. ab Lied 31 unter 1%. Die vollständige
Attribut-Liste befindet sich im Anhang.
Sortierschlüssel
Der Sortierschlüssel wird aus den Attributen „artist1“, „title1“ und „track01“
gebildet. Es werden jeweils die ersten drei Buchstaben der Attribute konkateniert,
wobei zuvor aus den Attributen die Leerzeichen entfernt und alle Buchstaben in
Großbuchstaben umgewandelt werden. Die Sortierung erfolgt dann alphabetisch
in aufsteigender Reihenfolge.
Ähnlichkeitsfunktion
Für die Berechnung der Ähnlichkeit zweier Tupel werden wiederum die Attri-
bute „artist1“, „title1“ und „track01“ ohne Leerzeichen in Großbuchstaben heran-
gezogen. Seien t 1 und t 2 zwei Tupel, dann kann ihre Ähnlichkeit mit folgender
Funktion berechnet werden:
u ( t 1 . Artist1 , t 2 . Artist1 )+ u ( t 1 . Title1 , t 2 . Title1 )+ u ( t 1 . Track01 , t 2 . Track01 )
3
f ( t 1 , t 2 )=
mit:
= 1, wenn x=TeilStringVon(y) oder y=TeilStringVon(x)
= Schwellwert, wenn IsNull(x) oder IsNull(y)
u
(
x
,
y
)=
edit _ distance ( x , y )
max {| x |,| y |}
= 1
ansonsten
Die Ähnlichkeitsfunktion gewichtet die drei Attribute gleich. Für jedes der At-
tribute wird die Ähnlichkeit bestimmt und anschließend der Mittelwert gebildet.
Das Ergebnis der Ähnlichkeitsfunktion wird gegen einen Schwellwert vergli-
chen. Ist die Ähnlichkeitsfunktion größer oder gleich dem Schwellwert, so werden
die beiden Tupel t 1 und t 2 als Du plikat klassifiziert.
6 freeDB ist eine freie Datenbank mit Informationen über den Inhalt von Audio-CDs (URL:
http://www.freedb.org).
Search WWH ::




Custom Search