Databases Reference
In-Depth Information
Vektoren der Anfragen repräsentiert. Wenn nun eine Anfrage ܳൌሺݍ ǡݍ ǡǥǡݍ bezüglich
der Dokumente ܦൌሺ݀ ǡ݀ ǡǥǡ݀ gestellt wird und diese als Vektoren
ݓ ௗǡ௧
ǥ
ݓ ௗǡ௧
ݓ ௤ǡ௧
ǥ
ݓ ௤ǡ௧
݀ Ԧ ൌ൭
und ݍԦൌ൭
in einem Vektorraum mit den Termen der vorliegenden Datenbasis aufgespannt wird, dann
entspricht
ݓ ௗǡ௧ der Relevanz eines Dokumentes d für den Term ݐ und
ݓ ௤ǡ௧ der Relevanz einer Anfrage für den Term ݐ .
Eine beispielhafte Repräsentation eines daraus entstehenden Vektorraummodells wird in Ab-
bildung 3-15 dargestellt. Um die Ähnlichkeit (engl. similarity) zwischen der Anfrage und den
Dokumenten zu bestimmen, wird der eingeschlossene Winkel φ zwischen dem Anfragevektor
ݍԦ und dem Dokumentenvektor ݀ Ԧ berechnet (Li et al. 2006, 1139; Magerman/Van Looy/Song
2010, 294). Dieses Ähnlichkeitsmaß, auch Kosinus-Ähnlichkeitsmaß (engl. cosine-similarity)
genannt, wird mit Hilfe der folgenden Formel berechnet, wobei im Zähler die Berechnung des
Skalarprodukts und im Nenner die Berechnung der beiden Beträge durchgeführt wird
(Bagga/Baldwin 1998, 81; Castells/Fernandéz/Vallet 2007, 19; Lee/Chuang/Seamons 1997,
69):
ݏ݅݉൫݀ Ԧ ǡԦ൯ൌ ݀ήݍ
ȁ ݀ ȁ ή ȁ ݍ ȁ
Je kleiner der Winkel zwischen der Anfrage und dem Dokument ist, desto größer ist die Ähn-
lichkeit zwischen ihnen.
Search WWH ::




Custom Search