Database Reference
In-Depth Information
N 1 :={„ M“, „ Ma“, „May“, „aye“, „yer“, „er “, „r
“}
N 2 :={„ M“, „ Ma“, „Mai“, „aie“, „ier“, „er “, „r
“}
Daraus ergibt sich:
N 1
N 2 :={„ M“, „ Ma“, „May“, „aye“, „yer“, „Mai“, „aie“,
„ier“, „er “,„r
“}
N 1
N 2 :={„ M“,„ Ma“, „er “,„r
“}
Zur Bestimmung der Ähnlichkeit zweier Zeichenketten existieren verschiedene
Berechnungsvorschriften. Der Wertebereich der Ähnlichkeit liegt wiederum zwi-
schen 0 für komplett unterschiedliche Zeichenketten und 1 für identische Zeichen-
ketten. Ein viel verwendetes Maß ist die Jaccard-Ähnlichkeit, die die Anzahl der
gemeinsamen Token beider Zeichenketten mit der Anzahl unterschiedlicher Token
beider Zeichenketten vergleicht 43 .
= |
|
N 1
N 2
sim Token 1 (
x
,
y
)
:
|
N 1
N 2 |
Ein zweites Maß ist der Dice-Koeffizient 44 , der im Nenner nicht mehr die An-
zahl unterschiedlicher n-Gramme von N 1 und N 2 enthält, sondern deren durch-
schnittliche Anzahl.
|
N 1
N 2 |
sim Token 2 (
x
,
y
)
:
=
0
,
5
· ( |
N 1
| + |
N 2
| )
Aus sim Token 2 lässt sich dann noch ein drittes Maß ableiten, welches jedoch statt
dem arithmetischen Mittel das geometrische Mittel im Nenner verwendet 45 .
|
N 1
N 2 |
sim Token 3 (
x
,
y
)
:
=
|
N 1 |·|
N 2 |
Für die Zeichenketten „Mayer“ und „Maier“ zeigt Tabelle 2.1 die berechnete
Distanz für die bisher vorgestellten Ähnlichkeitsmaße.
Ähnlichkeitsmaß
sim Token 1
sim Token 2
sim Token 3
sim ed
2
5
4
7
4
7
4
5
Wert
Tabelle 2.1: Ähnlichkeit für „Mayer“ und „Maier“
43 vgl. [19], S. 339
44 vgl. [2], S. 256 f.
45 vgl. [32], S. 39
 
Search WWH ::




Custom Search