Databases Reference
In-Depth Information
Anwendungsfall sinnvolles Ergebnis. In den meisten Fällen ist solch ein Ergebnis
ein Ergebnis ohne Widersprüche.
Das Problem der Datenfusion stellt sich demnach wie folgt dar:
Problem (Datenfusion): Gegeben eine Tabelle mit markierten Dublettengruppen, erzeuge
eine bereinigte Tabelle, die keine Widersprüche, und idealerweise genau eine Repräsenta-
tion pro Realweltobjekt enthält.
Sind die Dublettengruppen durch eine ID als eigenes Attribut bestimmt, besteht
die Aufgabe darin, dieses ID-Attribut zu einem Primärschlüssel werden zu lassen.
Bei der Behandlung von Konflikten gibt es eine Reihe von Strategien, die verfolgt
werden können. Im Folgenden werden einige davon vorgestellt.
5.3.1 Konflikte ignorieren
Die sicherlich einfachste, aber auch nicht unbedingt befriedigendste, Strategie ist es,
die Konflikte einfach zu ignorieren und dem Nutzer z.B. alle unterschiedlichen
Repräsentationen zugänglich zu machen und ihm damit die Entscheidung selbst
zu überlassen, welche Repräsentationen weiterverwendet werden sollen. Die ge-
wünschte Eigenschaft des ID-Attributs als Primärschlüssel wird dabei nicht er-
reicht. Zusätzlich bereitgestellte Metainformationen , z.B. über die Herkunft der
Daten oder die Wahrscheinlichkeit der Korrektheit der Daten ermöglichen dem
Nutzer eine bessere Entscheidung , entbinden ihn dabei aber nicht von der Ent-
scheidung, welche der möglichen Repräsentationen weiter verwendet werden soll.
Die relationalen Operatoren „Outer Union All“ und „Full Outer Join“ sind einfache
Beispiele für Datenfusionsverfahren bei denen Konflikte ignoriert werden.
5.3.2 Konflikte vermeiden
Fortgeschrittenere Strategien versuchen, Konflikte auf einfache Art zu vermeiden.
Dies kann z.B. dadurch geschehen, dass in der Ergebnistabelle nur widerspruchs-
freie, konsistente Realweltobjekte enthalten sind. Entfernt man exakte Dubletten
(Dubletten, die in allen Werten übereinstimmen) und Dubletten, die nur Unsicher-
heiten aber keine Widersprüche enthalten, sind dies am Ende die Dublettengrup-
pen der Größe 1, die also nur einen Datensatz enthalten. Ein Beispiel für solch eine
Vorgehensweise ist das CONQUER-System [Fuxman et. al. 2005], bei dem SQL-
Anfragen an Daten so umformuliert werden, dass ein konsistentes Ergebnis zu-
rückgegeben wird. Dieses Verfahren ist allerdings nicht für alle Klassen von SQL-
Anfragen anwendbar. Das konsistente Ergebnis im Beispiel besteht aus allen Da-
tensätzen, außer den Dublettengruppen 2, 3 und 5 („ Jan Marten “, „ Janine Mar-
ten “ und „ Jens Müller “). Diese Datensätze enthalten Widersprüche und sind daher
nicht im Ergebnis enthalten.
Eine weitere Strategie der Konfliktvermeidung ist die Rückgabe eines einzigen,
bestimmten Datensatzes aus einer Dublettengruppe. Diese Strategie wird oft als
Search WWH ::




Custom Search