Grundlagen der Datenintegration - Datenintegration

Database Reference

In-Depth Information

diesen Aufwand zu verringern, gibt es seit einigen Jahren Bestrebungen, das Finden von

Korrespondenzen durch sogenannte Matcher weitestgehend zu automatisieren.

2.6.2.4 Matching

(Schema-)Matching versucht 1:1 Korrespondenzen unterschiedlicher Schemas (semi-) au-

tomatisch zu inden. Dabei kommen einzelne oder eine Kombination von Algorithmen,

sogenannter Matcher , zum Einsatz. Diese versuchen auf der Basis vorgegebener Parameter

einen Ähnlichkeitswert zwischen Schemaelementen zu ermitteln. Dessen Ausprägung gibt

eine Wahrscheinlichkeit an, mit der zwei Elemente gleich sind.

Die Verfahren des Matchings lassen sich grob in zwei Arten einteilen: schemabasierte

und instanzbasierte Verfahren. Beim schemabasierten Ansatz erfolgt die Ermittlung der

Ähnlichkeit von Elementen (Attributen) verschiedener Datenbanktabellen aufgrund der

Schema-Struktur. Der instanzbasierte Ansatz hingegen berücksichtigt die in den Daten-

banken vorhandenen Werte bei der Ermittlung eines Ähnlichkeitsmaßes. Diese können auf

Spalten-Ebene (vertikaler instanzbasierter Matcher) oder auf Datensatz-Ebene (horizon-

taler instanzbasierter Matcher) ermittelt werden [HGHM11]. Die unterschiedlichen Mat-

cheransätze können außerdem kombiniert werden (Hybride Matcher) [HGHM11]. Eine

Übersicht von Matcher-Verfahren und -Kategorien bieten u. a. [RB01] und [LN07, S.143 ff.].

In beiden Matcher-Kategorien kommen neben phonetischen und linguistischen Algorith-

men, die mit den Benennungen der Schemaelemente oder den konkreten Werten arbeiten,

eine Vielzahl statistischer Methoden zum Einsatz.

Wenige der in den vergangenen Jahren im akademischen Bereich entwickelten Matcher

haben es zur Produktreife gebracht, wenngleich einige der Algorithmen durchaus in Data

Integration Tools zum Einsatz kommen. So setzen die meisten Software-Anbieter in ihren

Matching-Komponenten phonetische Algorithmen wie SoundEx oder Metphone bzw. lin-

guistische Algorithmen wie Levenshtein oder Jaro-Winkler ein. Komplexe kombinierte Mat-

cher gibt es aber oft nur in den Enterprise Versionen der Tools. Ein sehr viel versprechender

Matcher - COMA++ wurde von Rahm u. a. entwickelt. Grundlegendes Problem aller Mat-

cher ist, dass die berechneten Ähnlichkeitsmaße lediglich als Vorschlag für ein Mapping

zu sehen sind und durch einen Experten, der das nötige Domänenwissen aufweist, geprüft

werden müssen. Ein weiteres Problem ist die Performance kombinierter Matcher.

2.6.3 Daten-Integration

Im Ergebnis der Schema-Integration entsteht ein umfangreiches Regelwerk mit einer Viel-

zahl von Transformationsvorschriften . Diese müssen nun übersetzt werden in Transforma-

tionscode . Dieser transformiert die Daten des Quellsystems mit Hilfe von generischem Pro-

grammcode in die gewünschte Struktur des Zielsystems.

Natürlich können alle erforderlichen Transformationsvorschriften für den Fall der Integra-

tion von relationalen Datenbanken als SQL-Programmcode formuliert werden. Für Daten-

typumwandlungen stehen Konvertierungsfunktionen bereit, für Berechnungen mathema-

tische Funktionen, für die Abbildung von Wertelisten aufeinander prozedurale Mittel wie

Verzweigungen. Fast alle Aufgaben lassen sich so mehr oder weniger komfortabel mit Bord-

mitteln der DBMS lösen.

Search WWH ::

Custom Search

Home