Database Reference
In-Depth Information
größer oder gleich dem Schwellwert
, so werden beide Tupel als Duplikat aus-
gegeben. Eine Beschreibung von Ähnlichkeitsmaßen für die Ähnlichkeitsfunktion
sim findet sich in Kapitel 2.4.
Für die Duplikaterkennung existieren verschiedene Synonyme. So wird imDeut-
schen auch der Begriff Dublettenerkennung verwendet. Im Englischen sind die
Begriffe record linkage , object identification , entity resolution oder merge/purge
üblich 9 . Duplikaterkennung ist schon seit Jahrzehnten ein Forschungsthema. Ein
Artikel zum Thema record linkage wurde bereits 1946 von Halbert L. Dunn 10 ver-
fasst.
Schürle 11 beschreibt fünf Kategorien für Anwendungsgebiete für Record-Lin-
kage-Verfahren:
θ
1. Eliminierung von Duplikaten in einem Datenbestand
Eliminierung von Duplikaten innerhalb einer Quelle (z.B. mehrfach ange-
legte Kunden in einer Quelle).
2. Kombination von Datensätzen
Zusammenfassung von Datensätzen verschiedener Quellen, so dass keine
Realwelt-Objekte doppelt vorhanden sind (z.B. Kundendaten in verschiede-
nen Quell-Systemen).
3. Gewinnung von Informationen über Zusammenhänge
Enthalten zwei Datenmengen unterschiedliche Informationen, so können
durch die Kombination der Informationen gleicher Realwelt-Objekte Zu-
sammenhänge erkannt werden (z.B. in der medizinischen Forschung, wenn
aktuelle Krankendaten mit Daten aus der Vergangenheit verknüpft werden
und sich so ggf. Risikofaktoren oder Ursachen für Krankheiten ermitteln
lassen 12 ).
4. Identifikation von Elementen in übergeordneten Populationen
Anhand bestimmter Eigenschaften lassen sich Objekte in übergeordneten
Populationen identifizieren (z.B. das Auffinden eines Buches in einer Lite-
raturdatenbank 13 ).
5. Sicherung des Datenschutzes
Das ursprüngliche Ziel von Record-Linkage-Verfahren ist es, gleiche Ele-
9 vgl. [19], S. 330
10 vgl. [11]
11 vgl. [32], S. 2 f.
12 vgl. [6]
13 vgl. [27], S. 3 ff.
Search WWH ::




Custom Search