Databases Reference
In-Depth Information
0
falls
w
w
¯ ® -
I
R
d
w
,
w
:
1
I
R
1
sonst
liegt der „Alles oder Nichts“-Ansatz zugrunde. Somit lassen sich zwei Fälle
unterscheiden: Entweder der Attributwert im Informationssystem stimmt
mit der Ausprägung der entsprechenden Realwelt-Entität überein (Abstand
entspricht null) oder die Abweichung wird mit dem Maximalwert von eins
festgelegt.
Ein Abstandsmaß, das speziell bei numerischen Attributwerten eingesetzt
werden kann, ist die Abstandsfunktion
D
§
·
w
w
¨ ¨
©
I
R
¸ ¸
¹
d
(
w
,
w
)
:
,
^
`
2
I
R
max
|
w
|,
|
w
|
I
R
die den Wert null ebenfalls nur bei vollständiger Übereinstimmung annimmt.
Allerdings kann über den Parameter D IR + - je nach untersuchtem Attribut
und verfolgter Zielsetzung der Messung - beeinflusst werden, wie stark die
Metrik auf relative Abweichungen von w I und w R reagieren soll. So kann es
beispielsweise im Fall einer Marketingkampagne bei der Untersuchung des
Attributs PLZ notwendig sein, dass kleine Abweichungen relativ stark ins
Gewicht fallen, da hierdurch eventuell das Kundenanschreiben nicht mehr
zugestellt werden kann - hier ist D < 1 zu wählen. Soll die Abstandsfunktion
dagegen „toleranter“ gegenüber kleinen Abweichungen sein, ist D > 1 angeb-
racht - wie z. B. beim Attribut Hausnummer , da die Zustellung hier trotzdem
noch möglich ist. Bei Verwendung dieser Abstandsfunktion muss allerdings
beachtet werden, dass die Normierung des Maßes auf das Intervall [0; 1] nur
dann gegeben ist, wenn die Werte w I und w R gleiche Vorzeichen haben.
Andere Abstandsmaße d ( w I , w R ), die es ermöglichen, die Ähnlichkeit von Zeichen-
ketten zu bestimmen, können auf Basis von Editierabstand, Hamming-Distanz und
N-Grammen gebildet werden, wobei hier zum Teil eine Normierung auf das Inter-
vall [0; 1] notwendig ist:
Der Editierabstand d Edit. ( w I , w R ) ist als kleinste Menge elementarer Operatio-
nen definiert, mit denen eine Zeichenkette in eine andere transformiert wer-
den kann, wobei Einfügen und Löschen von einzelnen Zeichen ebenfalls als
elementare Operationen zu betrachten sind. Wird zusätzlich das Ersetzen
von Zeichen erlaubt, spricht man von der Levenshtein-Metrik d Lev. ( w I , w R ),
die durch Hinzunehmen der Transposition (Vertauschung benachbarter
Symbole) als weitere zulässige Operation zur so genannten Damerau-
Levenshtein-Metrik d Da.-Lev. ( w I , w R ) ausgebaut werden kann, die speziell zur
Tippfehlerkorrektur entworfen wurde. Bei Verwendung dieser Abstands-
maße muss der resultierende Wert noch auf das Intervall [0; 1] normiert
werden. Diese Normierung kann dadurch erfolgen, dass die Werte durch
Search WWH ::




Custom Search