Databases Reference
In-Depth Information
Wesentliche Schritte zur Datenbereinigung sind die Duplikaterkennung (Erkennen und
Zusammenlegen von gleichen Datensätzen) und Datenfusion (Zusammenführen und
Vervollständigen lückenhafter Daten).
Die Datenbereinigung ist ein Beitrag zur Verbesserung der Informationsqualität. Aller-
dings betrifft Informationsqualität auch viele weitere Eigenschaften von Datenquellen
(Glaubwürdigkeit, Relevanz, Verfügbarkeit, Kosten...), die sich mittels Datenbereinigung
nicht verbessern lassen.
Anders formuliert: Unter einer Datenbereinigung wird üblicherweise eine einma-
lige oder wiederholte (aber nicht permanente) Aktion zur Wiederherstellung einer
korrekten Datenbasis verstanden. Selbst bei regelmäßig wiederholten Bereini-
gungsaktionen handelt es sich aber immer wieder um eine nachträgliche Korrektur
bereits entstandener Datenfehler.
Dieses Vorgehen kann im Einzelfall (z.B. bei relativ statischen Daten) durchaus
sinnvoll und ausreichend sein. Bei kritischen Datenfehlern und hochdynamischen
Daten liegt in solchen punktuellen Ansätzen jedoch oftmals ein Problem: Sie helfen
i.d.R. nur temporär (kurzfristig) und verursachen einen erhöhten (Bereinigungs-)
Aufwand und das u.U. sogar wiederholt.
Zur Verdeutlichung folgendes Beispiel : Überträgt man seine Kontakte z.B. aus Mic-
rosoft Outlook ® auf sein Mobiltelefon und stellt später fest, dass eine Telefonnum-
mer nicht mehr aktuell ist, wird sehr häufig die Telefonnummer nur auf dem Mo-
biltelefon geändert. Nach einer erneuten Übernahme der Kontaktdaten aus Micro-
soft Outlook ® ist die Änderung im Telefon u.U. wieder mit den ursprünglichen,
veralteten Daten überschrieben und damit verloren (falls man bei der Synchronisa-
tion nicht entsprechende Einstellungen vornimmt). Die Korrektur der Telefon-
nummer muss erneut vorgenommen werden (nach einer u.U. wiederholten auf-
wändigen Recherche).
4.2 Ursachenanalyse
Ein solches Vorgehen ist sicherlich nicht effektiv und stellt die Datenqualität vor
allem nicht dauerhaft sicher. Idealerweise werden deshalb ergänzend zur Datenbe-
reinigung auch Maßnahmen ergriffen, die die erneute Entstehung von Datenfeh-
lern möglichst verhindern.
Deshalb bedarf es vor einer Bereinigung einer genauen Analyse der Fehlerursa-
chen, in der auch die bestehenden Prozesse und Datenflüsse untersucht werden
müssen, um die Maßnahmen zielgerichtet durchzuführen.
Im oben aufgeführten Beispiel mit der Telefonnummer ließe sich dann erkennen,
dass die eigentliche Bereinigung besser im führenden Quellsystem (in diesem Bei-
spiel Microsoft Outlook ® ) durchzuführen ist und sich durch die (regelmäßige oder
Search WWH ::




Custom Search