Databases Reference
In-Depth Information
plausible Werte zu ermitteln, auch mit dem Risiko, dass die Annahme und die
Regel für den Einzelfall nicht zutrifft (z.B. bei einem unrealistisch hohen Wert für
die Anzahl der Personen, die in einem Haushalt leben, kann ein definierter Maxi-
malwert oder ein Wert, der “unbekannt” repräsentiert, vergeben werden). Das
kann auch bedeuten, dass fehlerhafte und unbrauchbare Informationen (z.B.
alphanummerische Werte in einem nummerischen Feld) gelöscht werden. Hierbei
gilt es selbstverständlich, die Auswirkungen auf mögliche Folgeprozesse genau
abzuschätzen.
Lässt sich dieses nicht ausreichend verlässlich umsetzen, bleibt letztlich nur eine
aufwändige Einzelfallrecherche übrig (z.B. bei der Ermittlung des Geburtsdatums
einer Person, das nicht von anderen Daten abgeleitet oder über Referenzdaten
ermittelt werden kann, da ein Einwohnermelderegister nicht ohne weiteres öffent-
lich zugänglich ist).
Welche der aufgeführten Varianten angewandt wird, hängt vom jeweiligen Fehler-
fall, der Bedeutung der Daten und dem für die Bereinigung erforderlichen Auf-
wand ab.
Grundsätzlich ergibt sich daraus die Unterscheidung nach maschinellen, halb-
maschinellen und manuellen Bereinigungen . Wie bereits im Kap. 4.3 Bewertungskrite-
rien für Datenfehler und Korrekturmaßnahmen unter “Art der Bereinigungsmög-
lichkeit” ausgeführt, sollten maschinelle oder halb-maschinelle Bereinigungen
insbesondere bei einer großen Anzahl von Fehlern präferiert werden. Vorausset-
zung dafür ist allerdings, dass die fehlerhaften Daten nach spezifizierbaren Regeln
oder durch Abgleich gegen Referenzverzeichnisse korrigiert werden können.
Beim Abgleich gegen Referenzverzeichnisse ist allerdings darauf zu achten, dass
einerseits die Qualität (insbesondere in Bezug auf Vollständigkeit und Aktualität ) der
Referenzdaten dazu geeignet ist, eine Bereinigung vorzunehmen (andernfalls ent-
stehen u.U. neue und zusätzliche Datenfehler), und andererseits immer dann,
wenn kein eindeutiger Schlüssel für die Identifikation oder Zuordnung eines Refe-
renzdateneintrags zu den zu bereinigenden Daten existiert (z.B. eine Sozialversi-
cherungsnummer oder Umsatzsteuer-Identifikationsnummer), ein fehlertolerant
arbeitender Abgleichalgorithmus verwendet wird, der auch Ähnlichkeiten erkennt.
Ein solcher Ähnlichkeitsalgorithmus ermöglicht, auch bei (geringfügigen) Abwei-
chungen in der Schreibweise zwischen eigenem Datenbestand und Referenzver-
zeichnis den gewünschten Eintrag zu erkennen und damit deutlich höhere Treffer-
quoten und maschinelle Bereinigungsraten zu erzielen. Wird kein solcher Algo-
rithmus genutzt, führen selbst geringfügige Abweichungen in der Schreibweise
(u.U. bereits Unterschiede in der Groß-/Kleinschreibung oder der Darstellung von
Umlauten) dazu, dass kein passender Eintrag in den Referenzdaten gefunden wird,
wodurch wiederum keine maschinelle Korrektur möglich ist.
Für solche fehlertolerant arbeitenden Abgleiche empfiehlt es sich, professionelle
Abgleichprogramme von Software-Anbietern einzusetzen, die z.T. für spezielle
Einsatzzwecke noch zusätzliche Speziallogiken beinhalten und zudem individuell
Search WWH ::




Custom Search