Database Reference
In-Depth Information
2.4.3 Phonetische Ähnlichkeitsmaße
Phonetische Ähnlichkeitsmaße vergleichen Wörter anhand des Klangs. Sie kodie-
ren gleichklingende Wörter mit gleichen Zeichenfolgen (Phonetischer Kode) und
werden insbesondere zum Vergleich von Personennamen eingesetzt. Das Prinzip
ist, dass zwei Zeichenketten sich ähnlich sind, wenn ihre phonetischen Codes über-
einstimmen. Ist dies der Fall, so wird den beiden Zeichenketten eine Ähnlichkeit
von 1, ansonsten eine Ähnlichkeit von 0 zugewiesen 46 . In diesem Kapitel sollen
zwei Verfahren vorgestellt werden: Soundex ist das bekannteste Verfahren und
wird im angelsächsischen Sprachraum häufig eingesetzt, wohingegen die Kölner
Phonetik speziell für den deutschen Sprachraum entwickelt wurde.
Soundex
Das Soundex-Verfahren transformiert einen Namen in einen vierstelligen Kode,
der aus einem Buchstaben und drei Ziffern besteht. Das erste Zeichen des Kodes
ist der erste Buchstabe des Namens. Die drei Ziffern ergeben sich aus den wei-
teren Buchstaben, die durch Substitutionssymbole ersetzt werden (siehe Tabelle
2.2). Hierbei gilt, dass gleiche aufeinanderfolgende Substitutionssymbole auf ein
einziges Symbol reduziert werden. Hat die sich daraus ergebene Ziffernfolge mehr
als drei Zeichen, so werden alle Zeichen ab der vierten Stelle abgeschnitten. Hat
die Ziffernfolge weniger als drei Zeichen, so wird sie mit Nullen auf drei Ziffern
aufgefüllt. Vokale und die Buchstaben H, W und Y werden für die Kodierung nicht
berücksichtigt.
Buchstabe Substitutionssymbol
B, P, V, F 1
C, G, J, K, Q, S, X, Z 2
D, T 3
L 4
M, N 5
R 6
A, E, I, O, U, H, W, Y -
Tabelle 2.2: Soundex Substitutionssymbole 47
46 vgl. [3], S. 1
47 vgl. [30], S. 926
 
Search WWH ::




Custom Search