Databases Reference
In-Depth Information
Entscheidend für die Güte des Algorithmus ist die Wahl des Sortierschlüssels. Hier
liegt auch die Schwäche dieses Verfahrens: unterscheiden sich zwei Datensätze nur
in einem Buchstaben und ist dieser Bestandteil des Sortierschlüssels, dann werden
i.d.R. diese beiden Datensätze so weit auseinander sortiert, dass sie außerhalb des
Fensters der zu vergleichenden Datensätze liegen und daher nicht miteinander
verglichen werden. Hätten wir in unserem Beispiel den Sortierschlüssel so defi-
niert, dass er mit dem ersten Buchstaben des Wohnortes beginnt, dann wäre das
Dublettenpaar (4,9) „auseinander“ sortiert worden. Die Werte für den Wohnort
unterscheiden sich durch einen Buchstabendreher am Wortanfang.
Als Abhilfe dafür haben Hernandez und Stolfo mit Multipass eine Erweiterung
ihres Algorithmus vorgeschlagen. Dabei werden mehrere Sortierschlüssel mit un-
terschiedlicher Strukturierung verwendet. Nacheinander werden für jeden dieser
Sortierschlüssel die drei Schritte des Sorted-Neighbourhood-Algorithmus durchge-
führt. Durch die unterschiedlichen Sortierschlüssel stehen bei jedem Durchlauf
andere Datensätze nebeneinander, was die Chancen erhöht, neue Dubletten zu
entdecken. Die hierbei entdeckten Dublettengruppen werden durch die Bildung
der transitiven Hülle zusammengeführt. Bei der Bildung der transitiven Hülle
wird vorausgesetzt, dass wenn D1 eine Dublette zu D2 sowie D2 eine Dublette zu
D3 ist, auch D1 eine Dublette zu D3 ist und somit alle drei eine Dublettengruppe
bilden.
5.3 Schritt 3: Datenfusion
Sind die Schemata der beteiligten Tabellen angepasst,
sowie Dubletten und Dublettengruppen bekannt, blei-
ben zuletzt noch reine Datenkonflikte übrig, die behan-
delt werden müssen. Reine Datenkonflikte liegen vor,
wenn unterschiedliche Repräsentationen desselben
Realweltobjektes (lt. Dublettenerkennung) unterschied-
liche Werte für gleiche Attribute (lt. Mapping) aufwei-
sen. Die Gründe für die Existenz solcher Datenkonflikte
sind vielfältig, einige wurden in Abschnitt 5.2.2 bereits
genannt.
Bei Konflikten wird in der Regel zwischen Widersprü-
chen (unterschiedliche Werte) und Unsicherheiten (ein
Wert im Konflikt mit Null-Werten) unterschieden. Unsi-
cherheiten treten bevorzugt in den Attributen auf, die
nicht im Mapping enthalten sind und sind generell einfacher zu handhaben. Dabei
wird in der Regel eine „nicht bekannt“-Semantik der Null-Werte vorausgesetzt.
Der letzte Schritt im Integrationsprozess, der Schritt der Datenfusion, behandelt
beide Konfliktarten in Daten und erzeugt ein für den Nutzer und den jeweiligen
Anwendung
Visualisierung/Export
Datenfusion
Dublettenerkennung
Schema Matching
Vorverarbeitung
Datenquellen
Search WWH ::




Custom Search