Datenintegration und Deduplizierung - Daten und Informationsqualitat

Databases Reference

In-Depth Information

„ Vorname/Name “ in Quelle 1 und „ Name “ in Quelle 2 zu sehen. Während aktuelle

Schema Matching-Techniken 1:1 Beziehungen mittlerweile mit relativ großer Zu-

verlässigkeit finden, bestehen bei 1:n oder n:m Beziehungen noch Verbesserungs-

möglichkeiten. Einen guten Überblick über vorhandene Verfahren bieten [Rahm &

Bernstein 2001].

Schema Matching Verfahren zur Bestimmung von 1:1 Mappings lassen sich grob in

zwei Klassen einteilen: Schemabasierte Verfahren nutzen lediglich die Informatio-

nen der Schemaelemente um ein Mapping zu erstellen, während instanzbasierte

Verfahren vorhandene Daten mit einbeziehen. Das allgemeine Vorgehen ist je-

doch in beiden Fällen identisch: Zwischen je zwei Attributen aus unterschiedlichen

Quellen wird deren Ähnlichkeit mit Hilfe eines Ähnlichkeitsmaßes bestimmt. Die

jeweils ähnlichsten Attributkombinationen werden dann zu einem Mapping kom-

biniert und als Vorschlag einem Experten zur endgültigen Entscheidung vorgelegt.

Dabei ist zu beachten, dass das so entstandene Mapping nicht unbedingt korrekt

ist, da u.U. mehrere Attribute einer Tabelle auf dasselbe Attribut der anderen Ta-

belle abgebildet werden. Auch die Optimalität eines solchen Mappings ist nicht

gegeben. Zur Wahl eines globalen, möglichst guten Mappings bei bekannten Attri-

butkombinationen und deren Ähnlichkeiten gibt es mehrere Ansätze, u.a. das Ma-

ximum Weighted Matching-Verfahren und das Stable-Marriage-Verfahren (siehe

dazu auch [Melnik et. al. 2002]).

Schemabasierte Verfahren verwenden Ähnlichkeitsmaße ausschließlich auf den

Schemaelementen (Attributnamen), um äquivalente Attribute zu finden. Ein mög-

liches Ähnlichkeitsmaß ist die Levenshtein-Distanz ([Levenshtein 1965], auch als

Edit-Distanz bezeichnet, siehe genauer Abschnitt 5.2.3.1). Bei der Verwendung der

Levenshtein-Distanz als Ähnlichkeitsmaß werden die Attributnamen paarweise

miteinander verglichen. Daher würden z.B. die „ Name “-Spalten der beiden Tabel-

len aufeinander abgebildet, aber auch „ Vorname “ und „ Name “ könnten aufeinander

abgebildet werden, da sie eine hohe Ähnlichkeit nach der Levenshtein-Distanz

aufweisen. Des Weiteren sind z.B. auch „ Ort “ aus Tabelle 1 und „ Wohnort “ aus

Tabelle 2 ähnlicher als alle weiteren Kombinationen von „ Ort “ mit Attributen der

zweiten Tabelle. Zur Verfeinerung des Ähnlichkeitsmaßes können auch Synonym-

/Homonym-Listen verwendet werden, oder der Tabellenname mit berücksichtigt

werden. Mit diesen Erweiterungen kann man sich vorstellen, dass auch „ Ort “ und

„ Wohnort “ aufeinander abgebildet werden. Der CUPID-Matcher [Madhavan et. al.

2001] ist ein Beispiel für einen solchen schemabasierten Matcher.

Instanzbasierte Verfahren setzen das Vorhandensein von Daten voraus und nut-

zen diese Daten um ein Mapping zu erstellen . Hierbei sind grundsätzlich zwei

unterschiedliche Vorgehensweisen denkbar: Vertikale Matcher betrachten die

Daten eines Attributs; Attributen mit ähnlichen Daten wird ein höherer Ähnlich-

keitswert zugewiesen als Attributen mit unterschiedlichen Daten. Da sowohl die

Spalte „ Adresse “ als auch die Spalte „ Straße “ gleiche bzw. ähnliche Werte aufwei-

sen, ist eine korrekte Identifizierung dieses Mappings möglich. Anhand einer an-

Search WWH ::

Custom Search

Home