Databases Reference
In-Depth Information
fiel". Das Wort "verteidigte" wird einmal als Verb und einmal als Adjektiv verwendet.
Jurafsky/Martin (2009, 169) beschreiben dazu zwei Möglichkeiten, mit Hilfe von Taggern
diese Aufgabe zu lösen. Zum einen können regelbasierte Tagger auf Basis von Lexika oder
einer zuvor manuell erstellten Datenbank nach Regeln suchen, die den Umgang mit solchen
Doppeldeutigkeiten beschreiben (Cutting et al. 1992, 134; Hippner/Rentzmann 2006, 288). Es
können aber auch stochastische Tagger hinzugezogen werden, die jeweils die Wahrschein-
lichkeit der Annotation eines Wortes berechnen 9 .
3.6.3.4 Lemmatisierung und Stemming
Da ein einzelnes Wort viele Formen annehmen kann, sind die nächsten wichtigen Prozess-
schritte im Text Mining das Lemmatisieren und das Stemming (Plisson/Lavrac/Mladenic
2004, 1). Nach Hotho/Nürnberger/Paaß (2005, 26) ist das Ziel der Lemmatisierung, Verben
auf ihre Grundform zu bringen und Nomen auf ihre singuläre Form. Diese neue Form wird
Lemma genannt (Toutanova/Cherry 2009, 486). Hierfür ist jedoch notwendig, dass die Wörter
zuvor ein POS-Tagging durchlaufen. Die Vorteile der Lemmatisierung sind, dass z. B. bei
Abfragen der Suchende sich keine Gedanken über die korrekte Form des Wortes machen
muss. Somit wird auch die Anzahl der verschiedenen Indexeinträge verringert. Ferner bewirkt
die Umwandlung die Erweiterung der Suchergebnisse (Korenius et al. 2004, 1). Da dies je-
doch relativ zeitintensiv ist, wird in der Praxis u. a. aus diesem Grund oft das einfacherere
Stemming bevorzugt (Ferreira da Silva 2007, 57). Ursprünglich wurden beide Methoden im
Information Retrieval angewendet, um Performanceverbesserungen zu erlangen (Porter 1980,
313).
Beim Stemming wird versucht, das Wort auf einen Wortstamm zu reduzieren (Carlberger et
al. 2001, 1; Lovins 1968, 22). Kraaij/Pohlmann (1996, 40) argumentieren, dass das Ziel die
Verbesserung der Abfrageergebnisse ist. Dies soll durch die Reduzierung der morphologi-
schen Varianz von Begriffen erreicht werden. Dazu wird z. B. beim Plural eines Wortes das
"s" am Ende gestrichen (Vickery/Vickery 1992, 262). Ein Stamm ist eine natürliche Gruppe
von Wörtern mit gleicher oder sehr ähnlicher Bedeutung. Nach Durchlaufen des Stemming-
Prozesses wird jedes Wort von seinem Stamm vertreten. Die beim Stemming entstehenden
Terme ergeben oftmals kein tatsächliches der jeweiligen Sprache bekanntes Wort. Das kon-
krete Aussehen des Wortstamms hängt vom eingesetzten Algorithmus ab.
Einer der bekanntesten regelbasierten Algorithmen ist die ursprünglich von Porter entwickelte
Methode ((Porter 1980) zitiert in (Hotho/Nürnberger/Paaß 2005)). Mittlerweile gibt es Stem-
mer für eine ganze Reihe von Sprachen (Alemayehu/Willett 2003, 254).
Larkey/Ballesteros/Connell (2002, 275) fassen die Wirkung zusammen und vertreten die Auf-
fassung, dass Stemming der Analyse nicht schadet, jedoch eine Verbesserung um einen klei-
nen Betrag ermöglicht. Der unterschiedliche Ansatz der beiden Verfahren Lemmatisierung
und Stemming wird anschaulich von Ferreira da Silva (2007, 41) in Tabelle 3-9 dargestellt.
9 (Cutting et al. 1992, 134f.; Ratnaparkhi 1996, 133; Toutanova et al. 2003, 173;
Toutanova/Manning 2000, 63; van Halteren/Zavrel/Daelemans 2001, 214)
Search WWH ::




Custom Search