Database Reference
In-Depth Information
ten Daten bewegt und nur innerhalb des Fensters die Tupel paarweise vergleicht.
Diese beiden Verfahren sind in den Kapiteln 3 und 4 detaillierter beschrieben.
In Schritt 3 wird eine Vergleichsfunktion ausgewählt, die die Ähnlichkeit zweier
Tupel beschreibt. Hierfür werden die Attribute der Tupel einzeln mit einem Ab-
standsmaß verglichen. Welches Abstandsmaß ausgewählt wird, ist attribut- und
domänenspezifisch. Für Zeichenketten kann der Abstand beispielsweise mit der
Edit-Distanz berechnet werden. Tokenbasierte Verfahren eignen sich, wenn eine
Zeichenkette aus mehreren Wörtern besteht, die in einer unterschiedlichen Reihen-
folge enthalten sein können. Speziell für Namen sind phonetische Verfahren sinn-
voll, die den Abstand der Wörter anhand des Klangs bestimmen. Bei numerischen
Verfahren muss individuell betrachtet werden, ob der Betrag der Differenz sinn-
voll ist oder die Zahlen besser als Zeichenketten betrachtet werden. Nachdem die
Vergleichsfunktion bestimmt wurde, wird ein Entscheidungsmodell angewendet.
Dieses klassifiziert Tupel als Duplikat oder Nicht-Duplikat anhand des Abstands
der Vergleichsfunktion und eines Schwellwerts. Der Schwellwert ist ebenfalls do-
mänenspezifisch und bestimmt, wie streng die Klassifikation ist.
Der abschließende Schritt ist die Verifizierung des Ergebnisses. Hierbei misst
die Precision die Genauigkeit der Duplikaterkennung, d.h. wie sicher gefundene
Duplikate echte Duplikate sind. Höhere Schwellwerte führen zu höherer Precision.
Mit dem Recall wird die Vollständigkeit bestimmt, d.h. wieviel Prozent der ech-
ten Duplikate als Duplikat klassifiziert werden. Ein hoher Recall wird durch einen
niedrigen Schwellwert erreicht. Somit sind Precision und Recall konkurrierende
Kennzahlen. Ziel ist, durch Verfeinerung der Ähnlichkeitsmessung möglichst bei-
de Kennzahlen nahe an 1 zu bringen. Das F-Measure (harmonische Mittel aus
Precision und Recall) ist ein zusammenfassendes Gütekriterium.
Search WWH ::




Custom Search