Database Reference
In-Depth Information
2.5 Beurteilung der Qualität der Duplikaterkennung
In diesem Abschnitt werden Qualitätskriterien für die Duplikaterkennung betrach-
tet. Eine Liste möglicher Qualitätskriterien stammt von Neiling 59 . Er unterscheidet
zwischen quantitativen und qualitativen Kriterien.
• Quantitative Kriterien: Korrektheit des Ergebnisses, Skalierbarkeit bzgl.
wachsender Datenbankgrößen bzw. Parallelisierbarkeit, Performanz (Berech-
nungsaufwand wie Komplexität der Algorithmen oder benötigte Rechen-
zeit), sowie Kosten für den Betrieb (Hardware, Software, Personalkosten,
etc.).
• Qualitative Kriterien: Verständlichkeit und Transparenz des Verfahrens,
Benutzbarkeit, Integrierbarkeit in vorhandene Software-Architekturen, Ver-
lässlichkeit, Vollständigkeit, Robustheit, Erweiterbarkeit, Adaptierbarkeit
und Flexibilität.
Quantitative Kriterien lassen sich für einen definierten Anwendungsfall ermitteln
bzw. schätzen. Qualitative Kriterien erfordern dagegen in der Regel eine Bewer-
tung durch einen Experten.
Im Folgenden sollen zur Beurteilung der Qualität der Duplikaterkennung zwei
quantitative Zielgrößen herangezogen werden 60 :
• Effektivität
Beschreibt die Korrektheit des Verfahrens. Die Menge der gefundenen Du-
plikate soll möglichst mit der Menge der realen Duplikate übereinstimmen.
• Effizienz
Beschreibt die Performanz des Verfahrens. Die Effizienz bestimmt, ob die
Laufzeit des verwendeten Verfahrens zur Duplikaterkennung mit der Anzahl
der Elemente skaliert. Dies ist notwendig, da bei großen Datenmengen ein
vollständiger Vergleich aller Elemente zu einer zu hohen Laufzeit führt.
Die beiden Zielgrößen werden in den folgenden Unterkapiteln näher betrachtet.
2.5.1 Effektivität der Duplikaterkennung
Duplikaterkennung basiert auf dem paarweisen Vergleich einzelner Elemente, wo-
bei die Elemente jeweils als Duplikat oder Nicht-Duplikat klassifiziert werden.
59 vgl. [26], S. 143 ff.
60 vgl. [19], S. 331f.
Search WWH ::




Custom Search