Database Reference
In-Depth Information
diesen Aufwand zu verringern, gibt es seit einigen Jahren Bestrebungen, das Finden von
Korrespondenzen durch sogenannte Matcher weitestgehend zu automatisieren.
2.6.2.4 Matching
(Schema-)Matching versucht 1:1 Korrespondenzen unterschiedlicher Schemas (semi-) au-
tomatisch zu inden. Dabei kommen einzelne oder eine Kombination von Algorithmen,
sogenannter Matcher , zum Einsatz. Diese versuchen auf der Basis vorgegebener Parameter
einen Ähnlichkeitswert zwischen Schemaelementen zu ermitteln. Dessen Ausprägung gibt
eine Wahrscheinlichkeit an, mit der zwei Elemente gleich sind.
Die Verfahren des Matchings lassen sich grob in zwei Arten einteilen: schemabasierte
und instanzbasierte Verfahren. Beim schemabasierten Ansatz erfolgt die Ermittlung der
Ähnlichkeit von Elementen (Attributen) verschiedener Datenbanktabellen aufgrund der
Schema-Struktur. Der instanzbasierte Ansatz hingegen berücksichtigt die in den Daten-
banken vorhandenen Werte bei der Ermittlung eines Ähnlichkeitsmaßes. Diese können auf
Spalten-Ebene (vertikaler instanzbasierter Matcher) oder auf Datensatz-Ebene (horizon-
taler instanzbasierter Matcher) ermittelt werden [HGHM11]. Die unterschiedlichen Mat-
cheransätze können außerdem kombiniert werden (Hybride Matcher) [HGHM11]. Eine
Übersicht von Matcher-Verfahren und -Kategorien bieten u. a. [RB01] und [LN07, S.143 ff.].
In beiden Matcher-Kategorien kommen neben phonetischen und linguistischen Algorith-
men, die mit den Benennungen der Schemaelemente oder den konkreten Werten arbeiten,
eine Vielzahl statistischer Methoden zum Einsatz.
Wenige der in den vergangenen Jahren im akademischen Bereich entwickelten Matcher
haben es zur Produktreife gebracht, wenngleich einige der Algorithmen durchaus in Data
Integration Tools zum Einsatz kommen. So setzen die meisten Software-Anbieter in ihren
Matching-Komponenten phonetische Algorithmen wie SoundEx oder Metphone bzw. lin-
guistische Algorithmen wie Levenshtein oder Jaro-Winkler ein. Komplexe kombinierte Mat-
cher gibt es aber oft nur in den Enterprise Versionen der Tools. Ein sehr viel versprechender
Matcher - COMA++ wurde von Rahm u. a. entwickelt. Grundlegendes Problem aller Mat-
cher ist, dass die berechneten Ähnlichkeitsmaße lediglich als Vorschlag für ein Mapping
zu sehen sind und durch einen Experten, der das nötige Domänenwissen aufweist, geprüft
werden müssen. Ein weiteres Problem ist die Performance kombinierter Matcher.
2.6.3 Daten-Integration
Im Ergebnis der Schema-Integration entsteht ein umfangreiches Regelwerk mit einer Viel-
zahl von Transformationsvorschriften . Diese müssen nun übersetzt werden in Transforma-
tionscode . Dieser transformiert die Daten des Quellsystems mit Hilfe von generischem Pro-
grammcode in die gewünschte Struktur des Zielsystems.
Natürlich können alle erforderlichen Transformationsvorschriften für den Fall der Integra-
tion von relationalen Datenbanken als SQL-Programmcode formuliert werden. Für Daten-
typumwandlungen stehen Konvertierungsfunktionen bereit, für Berechnungen mathema-
tische Funktionen, für die Abbildung von Wertelisten aufeinander prozedurale Mittel wie
Verzweigungen. Fast alle Aufgaben lassen sich so mehr oder weniger komfortabel mit Bord-
mitteln der DBMS lösen.
Search WWH ::




Custom Search