Database Reference
In-Depth Information
Betrachtet man das Ergebnis der Klassifikation mit der Realwelt, so ergeben sich
vier Möglichkeiten
61
:
1. Ein Duplikat-Paar der Realwelt wird korrekt als Duplikat erkannt (true-
positive).
2. Ein Duplikat-Paar der Realwelt wird fälschlicherweise nicht als Duplikat
erkannt (false-negative).
3. Ein Paar von Nicht-Duplikaten der Realwelt wird korrekt als Nicht-Duplikat
erkannt (true-negative).
4. Ein Paar von Nicht-Duplikaten der Realwelt wird fälschlicherweise als Du-
plikat erkannt (false-positive).
Realität
Duplikat
Kein Duplikat
Duplikat
true-positive
false-positive
Methode
Kein Duplikat
false-negative
true-negative
Abbildung 2.4: Ergebnisse der Duplikaterkennung
62
Zur Bewertung der Effektivität von Duplikaterkennungsmethoden werden aus
dem Bereich des Information Retrievals
63
zwei Maße genommen:
1. Precision (Korrektheit)
2. Recall (Vollständigkeit)
Precision misst den Anteil der gefundenen echten Duplikate (true-positives) an
allen erkannten Duplikaten (true-positives + false-positives). Ein hoher Precision-
Wert bedeutet daher, dass die gefundenen Duplikate auch echte Duplikate der
Realwelt sind. Erreicht wird ein hoher Precision-Wert durch die Verwendung ei-
nes „strengen“ Ähnlichkeitsmaßes und einen hohen Schwellwert der Ähnlichkeits-
funktion. Precision = 1 erreicht man durch Verwendung der Identität als Ähnlich-
61
vgl. hierzu und zum Folgenden [19], S. 331 ff.
62
Quelle: [19], S. 332
63
vgl. [4], S. 75
Search WWH ::
Custom Search