Databases Reference
In-Depth Information
Yates/Ribeiro-Neto 1999, 167). Durch diese Reduzierung der Anzahl der Wörter wird die
inhaltliche Qualität der Auswertungen erhöht und der Rechenaufwand in Abhängigkeit von
der eingesetzten Analysemethode erheblich reduziert.
3.6.3.3 Part-of-speech Tagging
Durch die Anwendung der Tokenisierung und das Filtern der Stoppwörter wurden bereits die
ersten Schritte in der Bearbeitung der Texte durchgeführt. Je nachdem welche weiteren lingu-
istischen Analysen in Abhängigkeit von der Aufgabenstellung notwendig sind, kann nun mit
dem Part-of-speech-Tagging (POS-Tagging) der Prozess fortgesetzt, dieser Schritt jedoch
auch ausgelassen werden (Weiss et al. 2005, 37). Ein solcher linguistischer Korpus wird defi-
niert als "[…] eine Sammlung schriftlicher oder gesprochener Äußerungen. Die Daten des
Korpus sind typischerweise digitalisiert, d. h. auf Rechnern gespeichert und maschinenlesbar.
Die Bestandteile des Korpus bestehen aus den Daten selber sowie möglicherweise aus Meta-
daten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten
zugeordnet sind." (Lemnitzer/Zinsmeister 2010, 8).
Nach Hippner/Rentzmann (2006, 288) bildet das Part-of-speech-Tagging den Ausgangspunkt
einer syntaktischen Analyse der Texte. Es werden alle Wörter bzw. die Tokens mit ihrer
Wortart (wie z. B. Substantiv, Verb, Adjektiv) markiert (Feldman/Sanger 2007, 60;
Jurafsky/Martin 2009, 167). Brill (Brill 1992, 153, 1994, 2, 1995, 544) war einer der ersten,
der dazu einen relativ einfachen Algorithmus vorgestellt hat. Tanawongsuwan (2010, 353)
gibt ausgehend von einem Text in seiner Originalform ein Beispiel für das Tagging, hier dar-
gestellt in Tabelle 3-8.
A Whole New Mind $16.47 US, is a 2005 release from Daniel H. Pink that covers creative
thinking and other aspects of success.
A_DT Whole_JJ New_NNP Mind_NNP $_PUNC 16.47_CD US_NNP ,_PUNC is_VBZ
a_DT 2005_CD release_NN from_IN Daniel_NNP H._NNP Pink_NNP that_WDT co-
vers_VBZ creative_JJ thinking_NN and_CC other_JJ aspects_NNS of_IN success_NN
._PUNC
Tags: CC = coordinating conjunction, CD = cardinal number, DT = determiner, IN = prepo-
sition/subordinating participle conjunction, JJ = adjective, NN = noun (singular or mass),
NNS = proper noun (singular), NNP = noun (plural), PUNC = punctuation, VBZ = verb
(3rd person, singular, present), WDT = wh-determiner
Tabelle 3-8:
Beispiel für einen Text vor und nach dem POS-Tagging
(Quelle: (Tanawongsuwan 2010, 353))
Dieses Tagging ist insbesondere dann von Nutzen, wenn ausgehend von der Zielstellung z. B.
Namen von Personen, Orten oder Organisationen untersucht werden sollen (Weiss et al. 2005,
37). Jedoch können bei dieser Annotation auch Fälle auftreten, die eine eindeutige Zuordnung
erschweren (Hippner/Rentzmann 2006, 288). Heyer/Quasthoff/Wittig (2006, 127) geben
durch folgende beiden Sätze ein Beispiel: "Er verteidigte die Burg" und "Die verteidigte Burg
Search WWH ::




Custom Search