Databases Reference
In-Depth Information
für die eigenen Einsatzzwecke und Anforderungen konfiguriert werden können
(u.a. über welche Datenfelder ein Abgleich erfolgen soll und welche Fehlertole-
ranzgrade dabei verwendet werden sollen).
Klassische maschinelle oder halb-maschinelle Bereinigungen auf Basis von offiziel-
len Referenzdaten sind
Postalische Adressvalidierung und -korrektur durch Abgleich gegen Adress-
Referenzdaten mit Postleitzahl-, Orts- und Straßenverzeichnissen
Dublettenidentifikation und -bereinigung (siehe Abbildung 2) oder
Abgleich gegen Referenzdatenbanken (z.B. Firmenreferenzdatenbank, Umzugs-
daten, Telefonverzeichnis, Anti-Terror-/Sanktionslisten usw.).
Abbildung 2: Beispiel einer Dublettenliste
Diese Häufung im Bereich des Adress-/Stammdatenmanagements ergibt sich auf-
grund der vielfältigen öffentlich verfügbaren Referenzdatenverzeichnisse in die-
sem Umfeld. Grundsätzlich gelten die Ausführungen aber auch für Daten aus an-
deren Anwendungsbereichen, für die geeignete Referenzdaten verfügbar sind (z.B.
für Bankverbindungen). Die Referenzdaten müssen dabei nicht immer öffentlich
zugänglich sein, sondern können durchaus auch unternehmensintern aufgebaut
und gepflegt werden. Es müssen dabei jedoch dieselben Qualitätskriterien (Voll-
ständigkeit, Aktualität) erfüllt werden wie bei öffentlich zugänglichen Daten, da-
mit sie für maschinelle Bereinigungen verwendet werden können.
Bei fehlertoleranten Abgleichen, insbesondere bei der Dublettenidentifikation , sollten
vorab noch alle Möglichkeiten ausgeschöpft werden, die eine Standardisierung der
Daten erlauben. Durch eine solche Standardisierung können die fehlertoleranten
Algorithmen zielgerichteter, insbesondere auf solche Daten, die nicht vorab stan-
dardisiert werden konnten, angewandt werden, wodurch sich mehr und qualitativ
bessere (sicherere = verlässlichere) Treffer ergeben. Ohne Standardisierung muss
Search WWH ::




Custom Search