Databases Reference
In-Depth Information
Abbildung 3-16:
Worthäufigkeitsdiagramm
(Quelle: (Luhn 1958, 161))
Die reine Vorkommenshäufigkeit ݐ݂ ௜ǡ௝ ist die einfachste Art Terme zu gewichten. Dabei wird
angegeben, wie häufig der Term i im Dokument j vorkommt (Spärck Jones 1972, 11f.). Eine
weitere Möglichkeit zur Relevanzbestimmung ist die inverse Dokumentenfrequenz ݂݅݀
(Frakes/Baeza-Yates 1992, 371f.; Jurafsky/Martin 2009, 805; Spärck Jones 1972, 11f.). Diese
wertet Terme die nur in einigen wenigen Dokumenten auftreten auf, und erlaubt dadurch eine
Separation dieser Dokumente. Terme, die in vielen Dokumenten häufig auftreten, werden
dabei als nicht sinnvoll erachtet (Robertson 2004, 503f.). Die Ermittlung von idf erfolgt durch
folgende Berechnungsmethode (Jurafsky/Martin 2009, 805):
݂݅݀ ൌ݈݋݃ ܰ
݊
N ist in diesem Fall die Anzahl der Dokumente in der Sammlung und n i die Anzahl der Do-
kumente, die den Term i auftritt. Wenn die Vorkommenshäufigkeit ݐ݂ ௜ǡ௝ und die Dokumenten-
frequenz idf kombiniert wird, erhält man die Gewichtung w eines Terms durch Anwendung
von
ݓ ௜ǡ௝ ൌݐ݂ ௜ǡ௝ ൈ݂݅݀
und somit die weit verbreitete Maßzahl TF-IDF. Sie dient der Beurteilung der Relevanz eines
Terms in Bezug auf ein Dokument. Je bedeutender ein Wort ist, desto größer ist sein TF-IDF-
Wert. Unstrukturierte Daten in Form von Texten werden in strukturierte Daten umgewandelt.
Mit Hilfe dieser Maßzahlen und der Umwandlung von Dokumenten in Vektoren können Data
Search WWH ::




Custom Search