Datenintegration und Deduplizierung - Daten und Informationsqualitat

Databases Reference

In-Depth Information

und unterscheiden sich möglicherweise. Bei der Überwindung der Datenheteroge-

nität helfen Techniken der Dublettenerkennung sowie der Datenfusion .

Bei der technischen Durchführung wird zwischen virtueller und materialisierter

Integration unterschieden. Bei virtueller Integration verbleiben die Ursprungsda-

ten am ursprünglichen Ort, in den Datenquellen. Es wird lediglich eine einheitliche,

integrierte Sicht auf die Daten ermöglicht. Bei materialisierter Integration hinge-

gen werden die Daten aus den Quellen an einen zentralen Ort „kopiert“. Dem Vor-

teil der Materialisierung (Vollzugriff auf den gesamten Datenbestand bei niedrigen

Anfrageantwortzeiten) steht der Nachteil entgegen, dass die Daten nicht so aktuell

sind wie bei virtueller Integration, die Anfragen immer mit den aktuellen Daten

der Quellen beantwortet. Nachteile bei virtueller Integration hingegen sind höhere

Antwortzeiten und eine kompliziertere Anfrageplanung.

Im Folgenden werden wir kurz einen Integrationsprozess vorstellen, bevor wir

dann im Anschluss in den folgenden Abschnitten die Probleme der einzelnen

Schritte des Integrationsprozesses beschreiben und Lösungsmöglichkeiten aufzei-

gen.

Datenintegration - ein Prozess

Für den weiteren Verlauf des Kapi-

tels nehmen wir einen dreistufigen

Datenintegrationsprozess an, wie er

schematisch in Abbildung 1 zu sehen

ist. Daten werden aus unterschiedli-

chen Datenquellen ausgelesen und

bei Bedarf vorverarbeitet. In einem

ersten Schritt ( „ Schema Matching “ ,

siehe Abbildung 1) werden die un-

terschiedlichen Repräsentationen der

Daten in den Quellen angeglichen.

Insbesondere wird durch Verfahren

des Schema Matchings eine Abbil-

dung erstellt, die jeweils semantisch

äquivalenten Attributen einer Quelle

die entsprechenden Attribute der

anderen Quelle(n) zuordnet. Das

Ergebnis dieses Schrittes ist eine ver-

einheitlichte Darstellung der in den

Quellen gespeicherten Objekte. In

Schritt 2 ( „ Dublettenerkennung “ )

werden unterschiedliche Repräsen-

tationen ein und desselben Objektes,

sog. Dubletten, erkannt. Diese werden in einem dritten Schritt ( „ Datenfusion “ ) zu

einer einzigen Repräsentation zusammengefügt, wobei mögliche Datenkonflikte

Anwendung

Visualisierung/Export

Datenfusion

Schritt 3:

Dublettenerkennung

Schritt 2:

Schema Matching

Schritt 1:

Vorverarbeitung

Datenquellen

Abbildung 1: Datenintegration als Prozess

Daten und Informationsqualitat

Search WWH ::

Custom Search

Home