Databases Reference
In-Depth Information
Tabelle 5: Fusionierte Quellen, unter Angabe der verwendeten Konfliktlösungsfunktion
Name
Straße
Wohnort
Geb.-Datum
Summe
Führerschein
Kfz-Typ
Choose(Kfz)
Longest
Choose(LV)
Newest
Average
Coalesce
Coalesce
Janine Marten
Schillerplatz 3
Berlin
21.5.1977
100.000
3 / 4.6.1996
VW Polo
Jan Marten
Goethestr. 12
Berlin
1.12.1952
50.000
3 / 2 / 1.12.1970
Audi A2
Martin Jahn
Buschweg 23a
Hamburg
5.1.1966
75.000
3 / 1.1.1987
Ford Focus
Peter Maier
Mozartweg 2
Köln
A
A
3 / 16.9.1982
Twingo
Peter Maier
Mozartweg 2
Hamburg
16.9.1982
100.000
A
A
Maja Peters
Bachstr. 65
Köln
A
A
A / 23.8.2004
Citroen 2CV
Jens Müller
Händelstr. 1
Köln
24.3.1970
50.000
3 / 25.3.1988
VW Golf 3
Helga Martens
Göthestr. 12
Berlin
1.1.1954
100.000
A
A
Konfliktlösende Strategien können auf einfache Art und Weise mittels Gruppie-
rung und Aggregation umgesetzt werden. Dabei werden die Repräsentationen der
Objekte nach der im Schritt „Dublettenerkennung“ vergebenen ID gruppiert und
spaltenweise Konfliktlösungsfunktionen auf Repräsentationen mit gleicher ID
angewendet. Einzelne Strategien, wie z.B. Mittelwertbildung können in einem
Datenbanksystem recht einfach mit Hilfe bereits bestehender Aggregationsfunk-
tionen nachgebildet werden. Andere, wie z.B. die Mehrheitsentscheidung, erfor-
dern mehr Aufwand und den Einsatz von Erweiterungen des Datenbanksystems,
wie z.B. die SQL-Erweiterungen für OLAP-Anwendungen oder die Möglichkeit
benutzerdefinierte (Aggregations-)Funktionen verwenden zu können. Im letzteren
Fall sind prinzipiell beliebig komplizierte und mächtige Funktionen möglich, die
auch zusätzliche Informationen nutzen können. So ist es z.B. denkbar, taxonomi-
sches Wissen zur Konfliktlösung auszunutzen, indem bei zwei in Konflikt ste-
henden Werten der speziellere oder das kleinste gemeinsame Oberkonzept (lowest
common ancestor) gemäß einer Taxonomie verwendet wird. Bei einem Konflikt im
Attribut „ Wohnort “ zwischen den Werten „ Hamburg “ und „ Berlin “ könnte dieser
durch den Wert „ Deutschland “ aufgelöst werden.
Weitere Details zu Strategien zur Konfliktbehandlung beschreiben [Bleiholder &
Naumann 2006]. Dort wird auch die Umsetzung in einem integrierten Informati-
onssystem beschrieben. Die im HumMer-System [Naumann et. al. 2006] verwende-
te Fuse-By-Technik bietet hier eine einfache Möglichkeit komplexe und mächtige
Konfliktlösungen für Datenkonflikte zu spezifizieren.
Search WWH ::




Custom Search