Databases Reference
In-Depth Information
und unterscheiden sich möglicherweise. Bei der Überwindung der Datenheteroge-
nität helfen Techniken der Dublettenerkennung sowie der Datenfusion .
Bei der technischen Durchführung wird zwischen virtueller und materialisierter
Integration unterschieden. Bei virtueller Integration verbleiben die Ursprungsda-
ten am ursprünglichen Ort, in den Datenquellen. Es wird lediglich eine einheitliche,
integrierte Sicht auf die Daten ermöglicht. Bei materialisierter Integration hinge-
gen werden die Daten aus den Quellen an einen zentralen Ort „kopiert“. Dem Vor-
teil der Materialisierung (Vollzugriff auf den gesamten Datenbestand bei niedrigen
Anfrageantwortzeiten) steht der Nachteil entgegen, dass die Daten nicht so aktuell
sind wie bei virtueller Integration, die Anfragen immer mit den aktuellen Daten
der Quellen beantwortet. Nachteile bei virtueller Integration hingegen sind höhere
Antwortzeiten und eine kompliziertere Anfrageplanung.
Im Folgenden werden wir kurz einen Integrationsprozess vorstellen, bevor wir
dann im Anschluss in den folgenden Abschnitten die Probleme der einzelnen
Schritte des Integrationsprozesses beschreiben und Lösungsmöglichkeiten aufzei-
gen.
Datenintegration - ein Prozess
Für den weiteren Verlauf des Kapi-
tels nehmen wir einen dreistufigen
Datenintegrationsprozess an, wie er
schematisch in Abbildung 1 zu sehen
ist. Daten werden aus unterschiedli-
chen Datenquellen ausgelesen und
bei Bedarf vorverarbeitet. In einem
ersten Schritt ( Schema Matching ,
siehe Abbildung 1) werden die un-
terschiedlichen Repräsentationen der
Daten in den Quellen angeglichen.
Insbesondere wird durch Verfahren
des Schema Matchings eine Abbil-
dung erstellt, die jeweils semantisch
äquivalenten Attributen einer Quelle
die entsprechenden Attribute der
anderen Quelle(n) zuordnet. Das
Ergebnis dieses Schrittes ist eine ver-
einheitlichte Darstellung der in den
Quellen gespeicherten Objekte. In
Schritt 2 ( Dublettenerkennung )
werden unterschiedliche Repräsen-
tationen ein und desselben Objektes,
sog. Dubletten, erkannt. Diese werden in einem dritten Schritt ( Datenfusion ) zu
einer einzigen Repräsentation zusammengefügt, wobei mögliche Datenkonflikte
Anwendung
Visualisierung/Export
Datenfusion
Schritt 3:
Dublettenerkennung
Schritt 2:
Schema Matching
Schritt 1:
Vorverarbeitung
Datenquellen
Abbildung 1: Datenintegration als Prozess
Search WWH ::




Custom Search