Databases Reference
In-Depth Information
„Survivor“-Strategie bezeichnet und wird ob ihrer Einfachheit häufig in bestehen-
den Tools zur Datenreinigung verwendet. Das häufigste Auswahlkriterium ist
hier die Herkunft der Daten . Eine vorher zu bestimmende Datenquelle wird be-
vorzugt behandelt und als Ergebnis wird der Datensatz einer Dublettengruppe
zurückgegeben, der aus dieser Quelle stammt. Eine andere Möglichkeit, den über-
lebenden Datensatz zu bestimmen, ist das Alter der Daten . Sofern bekannt, z.B. als
Zeitstempel in einem weiteren Attribut hinterlegt, kann so der jeweils aktuellste
Datensatz zurückgegeben werden. Auch anhand der Daten selbst kann die Ent-
scheidung für einen Datensatz getroffen werden. So kann im obigen Beispiel der
Datensatz mit dem längsten Namen, oder der höchsten Versicherungssumme
überleben. Eine solche datenspezifische Auswahl sollte jedoch mit Sorgfalt und
abhängig vom jeweiligen Anwendungsfall angewendet werden.
Liegen keine Metadaten vor, ist die Übernahme eines vorhandenen Wertes und
das Ignorieren von Null-Werten (Strategie der Informationsübernahme) z.B. unter
Verwendung der SQL- coalesce- Funktion möglich.
5.3.3 Konflikte auflösen
Um die Nachteile ignorierender (Widersprüche bleiben bestehen) und vermeiden-
der (nicht alle Daten werden berücksichtigt) Strategien zu vermeiden, müssen
Konflikte aufgelöst werden, indem alle vorhandenen Daten berücksichtigt werden
und daraus ein neuer Datensatz zusammenfügt wird. In gewissem Sinne ist dies
die natürliche Erweiterung der vermeidenden Strategien, die Erweiterung um das
Einbeziehen aller Werte.
Bei der Konfliktlösung können unterschiedliche Strategien grob in zwei Gruppen
unterteilt werden: Entscheidende Strategien übernehmen einen in den Daten be-
reits vorhandenen Wert, während sich vermittelnde Strategien auch für einen
noch nicht vorhandenen Wert entscheiden können. Ein Beispiel für die erste Grup-
pe ist die Mehrheitsentscheidung , die Entscheidung für den am häufigsten auftre-
tenden Wert. Die Intuition hinter dieser Strategie ist, dass die Mehrheit sich selten
irrt, und dass ein Wert, der signifikant häufiger auftritt, mit hoher Wahrscheinlich-
keit der richtige ist. Ein Beispiel für eine vermittelnde Strategie ist die Mittelwert-
bildung .
Zu beachten ist, dass bei der Konfliktlösung sowohl vertikal als auch horizontal
partitioniert werden kann, d.h. die Konfliktlösung ist sowohl spalten- als auch
zeilenabhängig . Spaltenabhängig im Sinne, dass für jede Spalte eine andere Art
der Konfliktlösung verwendet wird, und zeilenabhängig im Sinne, dass für unter-
schiedliche Abschnitte (z.B. alle Kunden aus Berlin, alle Kunden aus Hamburg,
etc.) Konflikte unterschiedlich gelöst werden.
Search WWH ::




Custom Search