Database Reference
In-Depth Information
Namen
Primärform
Anderson, Andersen
062786
Bauer, Bayer
17
Baumgardt, Baumgard, Baumgart, Baumgarth
16472
Philipovich, Filipovich
35134
Mayer, Meyer, Mair, Maier, Meier
67
Rieck, Riek
74
Zyrankiewicz, Cyrankiewicz
876438
Tabelle 2.5: Beispiele für Kölner Phonetik
54
2.4.4 Numerische Ähnlichkeitsmaße
Werden numerische Attribute betrachtet, so ist die Distanz intuitiv der Betrag der
Subtraktion beider Werte
55
. Um als Ähnlichkeitsmaß zu dienen, erfolgt zusätzlich
eine Normalisierung auf den Wertebereich des Attributs, bzw. wenn dieser unbe-
kannt ist, auf den größeren Wert der beiden Attribute.
Oftmals ist eine Subtraktion jedoch nicht sinnvoll, beispielsweise bei Hausnum-
mern, Postleitzahlen, Ausweisnummern, etc.
56
. In diesen Fällen kann der Wert als
Zeichenkette aufgefasst werden und mit den entsprechenden Verfahren behandelt
werden
57
. Bei Attributen mit fixer Länge wird häufig die Hamming-Distanz ver-
wendet, die die Attribut-Werte zeichenweise vergleicht und die Anzahl der unter-
schiedlichen Zeichen mißt
58
. Für die Postleitzahlen „45678“ und „49673“ beträgt
die Hamming-Distanz beispielsweise zwei, da sich das zweite und das fünfte Zei-
chen unterscheidet. Die Hamming-Distanz wird dann analog zur Edit-Distanz in
ein Ähnlichkeitsmaß umgewandelt.
(
,
)
hamming
x
y
sim
Hamming
(
x
,
y
)
:
=
1
−
|
x
|
oder
|
y
|
54
vgl. [32], S. 46
55
Verykios et al. verwenden in einer Untersuchung die euklidische Distanz für numerische Felder (vgl.
[34], S. 94)
56
vgl. [31], S. 113
57
vgl. [1], S. 420
58
vgl. [12], S. 23
Search WWH ::
Custom Search