Datenintegration und Deduplizierung - Daten und Informationsqualitat

Databases Reference

In-Depth Information

Entscheidend für die Güte des Algorithmus ist die Wahl des Sortierschlüssels. Hier

liegt auch die Schwäche dieses Verfahrens: unterscheiden sich zwei Datensätze nur

in einem Buchstaben und ist dieser Bestandteil des Sortierschlüssels, dann werden

i.d.R. diese beiden Datensätze so weit auseinander sortiert, dass sie außerhalb des

Fensters der zu vergleichenden Datensätze liegen und daher nicht miteinander

verglichen werden. Hätten wir in unserem Beispiel den Sortierschlüssel so defi-

niert, dass er mit dem ersten Buchstaben des Wohnortes beginnt, dann wäre das

Dublettenpaar (4,9) „auseinander“ sortiert worden. Die Werte für den Wohnort

unterscheiden sich durch einen Buchstabendreher am Wortanfang.

Als Abhilfe dafür haben Hernandez und Stolfo mit Multipass eine Erweiterung

ihres Algorithmus vorgeschlagen. Dabei werden mehrere Sortierschlüssel mit un-

terschiedlicher Strukturierung verwendet. Nacheinander werden für jeden dieser

Sortierschlüssel die drei Schritte des Sorted-Neighbourhood-Algorithmus durchge-

führt. Durch die unterschiedlichen Sortierschlüssel stehen bei jedem Durchlauf

andere Datensätze nebeneinander, was die Chancen erhöht, neue Dubletten zu

entdecken. Die hierbei entdeckten Dublettengruppen werden durch die Bildung

der transitiven Hülle zusammengeführt. Bei der Bildung der transitiven Hülle

wird vorausgesetzt, dass wenn D1 eine Dublette zu D2 sowie D2 eine Dublette zu

D3 ist, auch D1 eine Dublette zu D3 ist und somit alle drei eine Dublettengruppe

bilden.

5.3 Schritt 3: Datenfusion

Sind die Schemata der beteiligten Tabellen angepasst,

sowie Dubletten und Dublettengruppen bekannt, blei-

ben zuletzt noch reine Datenkonflikte übrig, die behan-

delt werden müssen. Reine Datenkonflikte liegen vor,

wenn unterschiedliche Repräsentationen desselben

Realweltobjektes (lt. Dublettenerkennung) unterschied-

liche Werte für gleiche Attribute (lt. Mapping) aufwei-

sen. Die Gründe für die Existenz solcher Datenkonflikte

sind vielfältig, einige wurden in Abschnitt 5.2.2 bereits

genannt.

Bei Konflikten wird in der Regel zwischen Widersprü-

chen (unterschiedliche Werte) und Unsicherheiten (ein

Wert im Konflikt mit Null-Werten) unterschieden. Unsi-

cherheiten treten bevorzugt in den Attributen auf, die

nicht im Mapping enthalten sind und sind generell einfacher zu handhaben. Dabei

wird in der Regel eine „nicht bekannt“-Semantik der Null-Werte vorausgesetzt.

Der letzte Schritt im Integrationsprozess, der Schritt der Datenfusion, behandelt

beide Konfliktarten in Daten und erzeugt ein für den Nutzer und den jeweiligen

Anwendung

Visualisierung/Export

Datenfusion

Dublettenerkennung

Schema Matching

Vorverarbeitung

Datenquellen

Daten und Informationsqualitat

Search WWH ::

Custom Search

Home