Databases Reference
In-Depth Information
Vorname/Name “ in Quelle 1 und „ Name “ in Quelle 2 zu sehen. Während aktuelle
Schema Matching-Techniken 1:1 Beziehungen mittlerweile mit relativ großer Zu-
verlässigkeit finden, bestehen bei 1:n oder n:m Beziehungen noch Verbesserungs-
möglichkeiten. Einen guten Überblick über vorhandene Verfahren bieten [Rahm &
Bernstein 2001].
Schema Matching Verfahren zur Bestimmung von 1:1 Mappings lassen sich grob in
zwei Klassen einteilen: Schemabasierte Verfahren nutzen lediglich die Informatio-
nen der Schemaelemente um ein Mapping zu erstellen, während instanzbasierte
Verfahren vorhandene Daten mit einbeziehen. Das allgemeine Vorgehen ist je-
doch in beiden Fällen identisch: Zwischen je zwei Attributen aus unterschiedlichen
Quellen wird deren Ähnlichkeit mit Hilfe eines Ähnlichkeitsmaßes bestimmt. Die
jeweils ähnlichsten Attributkombinationen werden dann zu einem Mapping kom-
biniert und als Vorschlag einem Experten zur endgültigen Entscheidung vorgelegt.
Dabei ist zu beachten, dass das so entstandene Mapping nicht unbedingt korrekt
ist, da u.U. mehrere Attribute einer Tabelle auf dasselbe Attribut der anderen Ta-
belle abgebildet werden. Auch die Optimalität eines solchen Mappings ist nicht
gegeben. Zur Wahl eines globalen, möglichst guten Mappings bei bekannten Attri-
butkombinationen und deren Ähnlichkeiten gibt es mehrere Ansätze, u.a. das Ma-
ximum Weighted Matching-Verfahren und das Stable-Marriage-Verfahren (siehe
dazu auch [Melnik et. al. 2002]).
Schemabasierte Verfahren verwenden Ähnlichkeitsmaße ausschließlich auf den
Schemaelementen (Attributnamen), um äquivalente Attribute zu finden. Ein mög-
liches Ähnlichkeitsmaß ist die Levenshtein-Distanz ([Levenshtein 1965], auch als
Edit-Distanz bezeichnet, siehe genauer Abschnitt 5.2.3.1). Bei der Verwendung der
Levenshtein-Distanz als Ähnlichkeitsmaß werden die Attributnamen paarweise
miteinander verglichen. Daher würden z.B. die „ Name “-Spalten der beiden Tabel-
len aufeinander abgebildet, aber auch „ Vorname “ und „ Name “ könnten aufeinander
abgebildet werden, da sie eine hohe Ähnlichkeit nach der Levenshtein-Distanz
aufweisen. Des Weiteren sind z.B. auch „ Ort “ aus Tabelle 1 und „ Wohnort “ aus
Tabelle 2 ähnlicher als alle weiteren Kombinationen von „ Ort “ mit Attributen der
zweiten Tabelle. Zur Verfeinerung des Ähnlichkeitsmaßes können auch Synonym-
/Homonym-Listen verwendet werden, oder der Tabellenname mit berücksichtigt
werden. Mit diesen Erweiterungen kann man sich vorstellen, dass auch „ Ort “ und
Wohnort “ aufeinander abgebildet werden. Der CUPID-Matcher [Madhavan et. al.
2001] ist ein Beispiel für einen solchen schemabasierten Matcher.
Instanzbasierte Verfahren setzen das Vorhandensein von Daten voraus und nut-
zen diese Daten um ein Mapping zu erstellen . Hierbei sind grundsätzlich zwei
unterschiedliche Vorgehensweisen denkbar: Vertikale Matcher betrachten die
Daten eines Attributs; Attributen mit ähnlichen Daten wird ein höherer Ähnlich-
keitswert zugewiesen als Attributen mit unterschiedlichen Daten. Da sowohl die
Spalte „ Adresse “ als auch die Spalte „ Straße “ gleiche bzw. ähnliche Werte aufwei-
sen, ist eine korrekte Identifizierung dieses Mappings möglich. Anhand einer an-
Search WWH ::




Custom Search