Database Reference
In-Depth Information
Betrachtet man das Ergebnis der Klassifikation mit der Realwelt, so ergeben sich
vier Möglichkeiten 61 :
1. Ein Duplikat-Paar der Realwelt wird korrekt als Duplikat erkannt (true-
positive).
2. Ein Duplikat-Paar der Realwelt wird fälschlicherweise nicht als Duplikat
erkannt (false-negative).
3. Ein Paar von Nicht-Duplikaten der Realwelt wird korrekt als Nicht-Duplikat
erkannt (true-negative).
4. Ein Paar von Nicht-Duplikaten der Realwelt wird fälschlicherweise als Du-
plikat erkannt (false-positive).
Realität
Duplikat
Kein Duplikat
Duplikat
true-positive
false-positive
Methode
Kein Duplikat
false-negative
true-negative
Abbildung 2.4: Ergebnisse der Duplikaterkennung 62
Zur Bewertung der Effektivität von Duplikaterkennungsmethoden werden aus
dem Bereich des Information Retrievals 63 zwei Maße genommen:
1. Precision (Korrektheit)
2. Recall (Vollständigkeit)
Precision misst den Anteil der gefundenen echten Duplikate (true-positives) an
allen erkannten Duplikaten (true-positives + false-positives). Ein hoher Precision-
Wert bedeutet daher, dass die gefundenen Duplikate auch echte Duplikate der
Realwelt sind. Erreicht wird ein hoher Precision-Wert durch die Verwendung ei-
nes „strengen“ Ähnlichkeitsmaßes und einen hohen Schwellwert der Ähnlichkeits-
funktion. Precision = 1 erreicht man durch Verwendung der Identität als Ähnlich-
61 vgl. hierzu und zum Folgenden [19], S. 331 ff.
62 Quelle: [19], S. 332
63 vgl. [4], S. 75
Search WWH ::




Custom Search