Databases Reference
In-Depth Information
Vektoren der Anfragen repräsentiert. Wenn nun eine Anfrage
ܳൌሺݍ
ଵ
ǡݍ
ଶ
ǡǥǡݍ
ሻ
bezüglich
der Dokumente
ܦൌሺ݀
ଵ
ǡ݀
ଶ
ǡǥǡ݀
ሻ
gestellt wird und diese als Vektoren
ݓ
ௗǡ௧
భ
ǥ
ݓ
ௗǡ௧
ݓ
ǡ௧
భ
ǥ
ݓ
ǡ௧
݀
Ԧ
ൌ൭
൱
und
ݍԦൌ൭
൱
in einem Vektorraum mit den Termen der vorliegenden Datenbasis aufgespannt wird, dann
entspricht
ݓ
ௗǡ௧
der Relevanz eines Dokumentes
d
für den Term
ݐ
und
ݓ
ǡ௧
der Relevanz einer Anfrage für den Term
ݐ
.
Eine beispielhafte Repräsentation eines daraus entstehenden Vektorraummodells wird in Ab-
bildung 3-15 dargestellt. Um die Ähnlichkeit (engl. similarity) zwischen der Anfrage und den
Dokumenten zu bestimmen, wird der eingeschlossene Winkel
φ
zwischen dem Anfragevektor
ݍԦ
und dem Dokumentenvektor
݀
Ԧ
berechnet (Li et al. 2006, 1139; Magerman/Van Looy/Song
2010, 294). Dieses Ähnlichkeitsmaß, auch Kosinus-Ähnlichkeitsmaß (engl. cosine-similarity)
genannt, wird mit Hilfe der folgenden Formel berechnet, wobei im Zähler die Berechnung des
Skalarprodukts und im Nenner die Berechnung der beiden Beträge durchgeführt wird
(Bagga/Baldwin 1998, 81; Castells/Fernandéz/Vallet 2007, 19; Lee/Chuang/Seamons 1997,
69):
ݏ݅݉൫݀
Ԧ
ǡԦ൯ൌ
݀ήݍ
ȁ
݀
ȁ
ή
ȁ
ݍ
ȁ
Je kleiner der Winkel zwischen der Anfrage und dem Dokument ist, desto größer ist die Ähn-
lichkeit zwischen ihnen.