Database Reference
In-Depth Information
• Inkonsistenzen entstehen, wenn ein Datensatz geändert wird, jedoch nicht
das Duplikat.
• Bei einem Löschvorgang bleibt das Duplikat im Datenbestand erhalten, das
Realwelt-Objekt ist somit nicht vollständig entfernt.
Duplikate verbrauchen weiterhin unnötigerweise Speicherplatz und Rechenleis-
tung. Sie sind daher möglichst zu vermeiden bzw. zu beseitigen.
2.3 Ablauf der Duplikaterkennung
Obwohl der Ablauf der Duplikaterkennung abhängig von den Daten und verwen-
deten Methoden ist, lässt sich ein grobes Vorgehensmodell skizzieren. Batini und
Scannapieco 17 gliedern diesen Prozess in fünf Schritte, die in Abbildung 2.1 dar-
gestellt sind.
Ergebnis nicht ok
Quelle A
Reduzierung des
Suchraums
Quelle B
Vorverarbeitung
C A × B
Auswahl einer Vergleichsfunktion und
Anwendung des Entscheidungsmodells
Verifizierung
des Ergebnisses
Duplikate
Nicht-Duplikate
Abbildung 2.1: Ablauf Duplikaterkennung
Schritt 1: Vorverarbeitung
Die Vorverarbeitung hat das Ziel, die Daten zu vereinheitlichen und offensichtliche
Fehler zu korrigieren. Diese Aufgabe ist domänenspezifisch und sollte daher von
einem Domänen-Experten spezifiziert werden.
17 vgl. [5], S101 ff.
 
Search WWH ::




Custom Search