Database Reference
In-Depth Information
keitsmaß. Hierdurch werden jedoch echte Duplikate der Realwelt nicht erkannt,
wenn sie eine geringere Ähnlichkeit aufweisen.
|
true
positives
|
=
precision
|
true
positives
| + |
false
positives
|
Der Recall misst den Anteil der gefundenen echten Duplikate (true-positives) an
allen echten Duplikaten (true-positives + false-negatives). Ein hoher Recall wird
durch ein weniger strenges Ähnlichkeitsmaß mit einem niedrigen Schwellwert der
Ähnlichkeitsfunktion erreicht. Einen Recall von 1 erhält man, indem alle Tupel-
Paare als Duplikat klassifiziert werden. Dies bedeutet jedoch, dass viele Nicht-
Duplikate falsch klassifiziert werden und somit der Wert der Precision sinkt.
|
|
true
positives
recall
=
|
true
positives
| + |
false
negatives
|
Precision und Recall sind somit konkurrierende Ziele bei der Ähnlichkeitsmes-
sung. Sie sind beide vom Ähnlichkeitsmaß und dem Schwellwert abhängig, deren
Konfiguration vom jeweiligen Anwendungsfall abhängt. Während bei einer einfa-
chen Suche Precision und Recall in Summe maximal 1 ergeben, muss es dass Ziel
der Duplikaterkennung sein, durch Optimierung der Verfahren möglichst für beide
Kennzahlen einen hohen Wert nahe 1 zu erreichen.
Ein zusammenfassendes Gütekriterium der Duplikaterkennung ist das F-Measu-
re, welches das harmonische Mittel aus Precision und Recall darstellt. Das
F-Measure ist definiert als:
2
×
recall
×
precision
F
measure
=
+
recall
precision
Ein weiteres Maß ist die Match-Accuracy 64 . Sie misst den Aufwand eines Be-
nutzers, um das Ergebnis der Duplikaterkennung in das korrekte Ergebnis zu über-
führen. Der Aufwand entsteht durch das Hinzufügen fehlender bzw. das Löschen
falscher Duplikate. Die Kosten betragen für jede Operation jeweils 1.
1
precision )=
TP
FP
=
× (
match
accuracy
recall
2
TP
+
FN
Die Definition der Match-Accuracy ist nur sinnvoll, wenn die Precision nicht klei-
ner als 0,5 ist, da ansonsten die Match-Accuracy negativ werden würde. Ist die Pre-
cision kleiner als 0,5, d.h. mehr als die Hälfte der gefundenen Duplikate sind falsch
klassifiziert, dann verursacht eine manuelle Klassifikation weniger Aufwand.
64 vgl. [22], S. 123
 
Search WWH ::




Custom Search