Database Reference
In-Depth Information
mente der Realwelt zu identifizieren. Sie lassen sich jedoch auch für ei-
ne Prüfung verwenden, ob aus anonymisierten Daten doch wieder auf die
Realwelt-Objekte geschlossen werden kann.
2.2 Entstehung und Auswirkungen von Duplikaten
Duplikate sind zwar Repräsentanten derselben Realwelt-Objekte, sie unterschei-
den sich jedoch in ihren Attributwerten, insbesondere bei den Attributen die ein
Objekt identifizieren. Enthalten Duplikate gleiche Bezeichnungen in den Attribu-
ten die ein Realwelt-Objekt identifizieren, so sind die Duplikate leicht zu finden.
Dieser Fall kann jedoch schon technisch ausgeschlossen werden, beispielsweise
durch die Verwendung einer -Bedingung auf einer Datenbanktabelle. Sind
die Attribut-Werte jedoch fehlerhaft, so liegt keine Identität mehr vor. Leser und
Naumann 14 beschreiben vier Ursachen für Datenfehler:
1. Dateneingabe und Erfassung
Sowohl bei der manuellen Dateneingabe, als auch bei der automatischen
Datenerfassung können Fehler aus unterschiedlichsten Gründen auftreten.
Durch die fehlerhaften Daten können gleiche Realwelt-Objekte nicht direkt
erkannt werden und es entstehen Duplikate. Mögliche Ursachen 15 sind:
• Tippfehler/Hörfehler
Z.B. „Meier“, „Meyer“, „Maier“. Dies passiert beispielsweise häufig,
wenn mit Kunden über verschiedene Kanäle kommuniziert wird.
• Hinzufügen, weglassen oder abkürzen von zusätzlichen Angaben
Z.B. „Frankfurt“, „Frankfurt a. M.“, „Frankfurt am Main“.
• Verwendung unterschiedlicher Reihenfolge zusammengesetzter Attri-
bute
Z.B. „Max Mustermann“, „Mustermann, Max“.
• Betrugsversuche
Z.B. Kunden mit schlechter Bonität, die sich mehrfach bei einem Ver-
sandhandel mit unterschiedlichen Angaben anmelden, um weiterhin
Waren geliefert zu bekommen.
• Schutz der Privatsphäre
Z.B. unvollständige oder inkorrekte Kundendaten in Webformularen,
wenn zu viele Pflichtfelder gefordert sind.
14 vgl. [19], S.323 f.
15 vgl. auch [8], S. 131
Search WWH ::




Custom Search