Databases Reference
In-Depth Information
Die folgenden Ortsnamen bezeichnen alle dieselbe Stadt:
Tabelle 6: Nicht standardisierte Ortsnamen
Frankfurt a.M.
Frankfurt am Main
Frankfurt (Hessen)
Frankfurt-Niederrad
Die oben erwähnten Ähnlichkeitsmaße würden beim paarweisen Vergleich nicht
unerhebliche Unterschiede messen. Und selbst auf Ortsnamen spezialisierte Ähn-
lichkeitsmaße würden keine Gleichheit feststellen.
Praktischer ist hier, noch vor der Dublettenerkennung, eine Standardisierung der
Datenwerte durchzuführen. Dazu wird im Rahmen eines Data Profiling u.a. eine
Häufigkeitsverteilung der Werte in den einzelnen Datenfeldern durchgeführt. Zur
Beseitigung der hierbei entdeckten Datenqualitätsmängel in Bezug auf die Dimen-
sion Einheitliche Darstellung gibt es mehrere Möglichkeiten.
Bei Datenfeldern mit überschaubaren Wertemengen wie z.B. Anrede oder Titel,
sollte eine unternehmensweit gültige Wertemenge festgelegt und umgesetzt wer-
den. Im aktuell zu bearbeitenden Datenbestand kann dies durch einige UPDATE-
Kommandos geschehen. Für eine unternehmensweite Umsetzung müssen alle
Prozesse und Systeme betrachtet werden, in denen dieses Datenfeld vorkommt.
Ähnlich verhält es sich, wenn die Unterschiede lediglich die Formatierung betref-
fen, z.B. bei Telefonnummern oder Datumsangaben. Auch hier muss möglichst ein
unternehmensweites Format definiert werden. Im konkreten Einzelfall kann eine
Umformatierung ein hilfreicher Schritt vor der Dublettenerkennung sein.
Bei Datenfeldern mit sehr großer Wertemenge kann in einigen Fällen auf Refe-
renzdatensysteme zurückgegriffen werden, z.B. bei Adressen, Bankverbindungen,
Telefonnummern, Anti-Terrorlisten. Für diese Anwendungsbereiche gibt es ein
Verzeichnis der gültigen Werte in diesem Bereich. So kann beispielsweise von der
Deutschen Post ein Verzeichnis aller Postleitzahlen, Ortsnamen und Straßennamen
bezogen werden. Ein Referenzdatensystem basiert auf einem solchen Verzeichnis
und führt darauf eine fehlertolerante Suche aus, quasi eine „Ähnlichkeitssuche“.
Wird beispielsweise an ein Referenzdatensystem auf Basis postalischer Verzeich-
nisse eine Adresse übergeben, so sucht das System die ähnlichste Adresse und gibt
diese aus. Dabei kann es sein, dass Ein- und Ausgabe identisch sind. In diesem Fall
hat nur eine Validierung stattgefunden. Wenn Ein- und Ausgabe aber unterschied-
lich sind, hat eine Standardisierung oder gar eine Korrektur stattgefunden.
Der Einsatz von Referenzdatensystemen führt daher nicht nur zu einer Verbesse-
rung in der IQ-Dimension Einheitliche Darstellung , sondern auch zur Verbesserung
Search WWH ::




Custom Search