Databases Reference
In-Depth Information
Te rm 1
Dokument 1
Anfrage
φ
Te rm 3
Dokument 2
Te rm 2
Abbildung 3-15:
Vektorraummodell
(Quelle: Eigene Darstellung in Anlehnung an (Salton/Wong/Yang 1975, 614))
3.6.4.2 Gewichtung von Termen in Dokumenten
Ausgehend von den Überlegungen von Luhn (1958, 161) haben Wörter abhängig von ihrer
Vorkommenshäufigkeit hinsichtlich ihrer Signifikanz eine unterschiedliche Bedeutung. Die
These besagt, dass häufig auftretende sowie besonders selten vorkommende Wörter nahezu
keine oder wenig Bedeutung für ein Dokument haben. Diese Verteilung kann in Form einer
Gauß-Kurve dargestellt werden, bei der die jeweiligen Schranken der Relevanz nach unten
und nach oben hin durch die Linien C und D dargestellt sind (siehe Abbildung 3-16).
Search WWH ::




Custom Search