Database Reference
In-Depth Information
größer oder gleich dem Schwellwert
, so werden beide Tupel als Duplikat aus-
gegeben. Eine Beschreibung von Ähnlichkeitsmaßen für die Ähnlichkeitsfunktion
sim
findet sich in Kapitel 2.4.
Für die Duplikaterkennung existieren verschiedene Synonyme. So wird imDeut-
schen auch der Begriff
Dublettenerkennung
verwendet. Im Englischen sind die
Begriffe
record linkage
,
object identification
,
entity resolution
oder
merge/purge
üblich
9
. Duplikaterkennung ist schon seit Jahrzehnten ein Forschungsthema. Ein
Artikel zum Thema
record linkage
wurde bereits 1946 von Halbert L. Dunn
10
ver-
fasst.
Schürle
11
beschreibt fünf Kategorien für Anwendungsgebiete für Record-Lin-
kage-Verfahren:
θ
1. Eliminierung von Duplikaten in einem Datenbestand
Eliminierung von Duplikaten innerhalb einer Quelle (z.B. mehrfach ange-
legte Kunden in einer Quelle).
2. Kombination von Datensätzen
Zusammenfassung von Datensätzen verschiedener Quellen, so dass keine
Realwelt-Objekte doppelt vorhanden sind (z.B. Kundendaten in verschiede-
nen Quell-Systemen).
3. Gewinnung von Informationen über Zusammenhänge
Enthalten zwei Datenmengen unterschiedliche Informationen, so können
durch die Kombination der Informationen gleicher Realwelt-Objekte Zu-
sammenhänge erkannt werden (z.B. in der medizinischen Forschung, wenn
aktuelle Krankendaten mit Daten aus der Vergangenheit verknüpft werden
und sich so ggf. Risikofaktoren oder Ursachen für Krankheiten ermitteln
lassen
12
).
4. Identifikation von Elementen in übergeordneten Populationen
Anhand bestimmter Eigenschaften lassen sich Objekte in übergeordneten
Populationen identifizieren (z.B. das Auffinden eines Buches in einer Lite-
raturdatenbank
13
).
5. Sicherung des Datenschutzes
Das ursprüngliche Ziel von Record-Linkage-Verfahren ist es, gleiche Ele-
9
vgl. [19], S. 330
10
vgl. [11]
11
vgl. [32], S. 2 f.
12
vgl. [6]
13
vgl. [27], S. 3 ff.
Search WWH ::
Custom Search