Database Reference
In-Depth Information
Namen
Primärform
Anderson, Andersen
062786
Bauer, Bayer
17
Baumgardt, Baumgard, Baumgart, Baumgarth
16472
Philipovich, Filipovich
35134
Mayer, Meyer, Mair, Maier, Meier
67
Rieck, Riek
74
Zyrankiewicz, Cyrankiewicz
876438
Tabelle 2.5: Beispiele für Kölner Phonetik 54
2.4.4 Numerische Ähnlichkeitsmaße
Werden numerische Attribute betrachtet, so ist die Distanz intuitiv der Betrag der
Subtraktion beider Werte 55 . Um als Ähnlichkeitsmaß zu dienen, erfolgt zusätzlich
eine Normalisierung auf den Wertebereich des Attributs, bzw. wenn dieser unbe-
kannt ist, auf den größeren Wert der beiden Attribute.
Oftmals ist eine Subtraktion jedoch nicht sinnvoll, beispielsweise bei Hausnum-
mern, Postleitzahlen, Ausweisnummern, etc. 56 . In diesen Fällen kann der Wert als
Zeichenkette aufgefasst werden und mit den entsprechenden Verfahren behandelt
werden 57 . Bei Attributen mit fixer Länge wird häufig die Hamming-Distanz ver-
wendet, die die Attribut-Werte zeichenweise vergleicht und die Anzahl der unter-
schiedlichen Zeichen mißt 58 . Für die Postleitzahlen „45678“ und „49673“ beträgt
die Hamming-Distanz beispielsweise zwei, da sich das zweite und das fünfte Zei-
chen unterscheidet. Die Hamming-Distanz wird dann analog zur Edit-Distanz in
ein Ähnlichkeitsmaß umgewandelt.
(
,
)
hamming
x
y
sim Hamming (
x
,
y
)
:
=
1
|
x
|
oder
|
y
|
54 vgl. [32], S. 46
55 Verykios et al. verwenden in einer Untersuchung die euklidische Distanz für numerische Felder (vgl.
[34], S. 94)
56 vgl. [31], S. 113
57 vgl. [1], S. 420
58 vgl. [12], S. 23
 
Search WWH ::




Custom Search