Duplikaterkennung - Partitionierung zur effizienten Duplikaterkennung in relationalen Daten

Database Reference

In-Depth Information

größer oder gleich dem Schwellwert

, so werden beide Tupel als Duplikat aus-

gegeben. Eine Beschreibung von Ähnlichkeitsmaßen für die Ähnlichkeitsfunktion

sim findet sich in Kapitel 2.4.

Für die Duplikaterkennung existieren verschiedene Synonyme. So wird imDeut-

schen auch der Begriff Dublettenerkennung verwendet. Im Englischen sind die

Begriffe record linkage , object identification , entity resolution oder merge/purge

üblich 9 . Duplikaterkennung ist schon seit Jahrzehnten ein Forschungsthema. Ein

Artikel zum Thema record linkage wurde bereits 1946 von Halbert L. Dunn 10 ver-

fasst.

Schürle 11 beschreibt fünf Kategorien für Anwendungsgebiete für Record-Lin-

kage-Verfahren:

θ

1. Eliminierung von Duplikaten in einem Datenbestand

Eliminierung von Duplikaten innerhalb einer Quelle (z.B. mehrfach ange-

legte Kunden in einer Quelle).

2. Kombination von Datensätzen

Zusammenfassung von Datensätzen verschiedener Quellen, so dass keine

Realwelt-Objekte doppelt vorhanden sind (z.B. Kundendaten in verschiede-

nen Quell-Systemen).

3. Gewinnung von Informationen über Zusammenhänge

Enthalten zwei Datenmengen unterschiedliche Informationen, so können

durch die Kombination der Informationen gleicher Realwelt-Objekte Zu-

sammenhänge erkannt werden (z.B. in der medizinischen Forschung, wenn

aktuelle Krankendaten mit Daten aus der Vergangenheit verknüpft werden

und sich so ggf. Risikofaktoren oder Ursachen für Krankheiten ermitteln

lassen 12 ).

4. Identifikation von Elementen in übergeordneten Populationen

Anhand bestimmter Eigenschaften lassen sich Objekte in übergeordneten

Populationen identifizieren (z.B. das Auffinden eines Buches in einer Lite-

raturdatenbank 13 ).

5. Sicherung des Datenschutzes

Das ursprüngliche Ziel von Record-Linkage-Verfahren ist es, gleiche Ele-

9 vgl. [19], S. 330

10 vgl. [11]

11 vgl. [32], S. 2 f.

12 vgl. [6]

13 vgl. [27], S. 3 ff.

Search WWH ::

Custom Search

Home