Databases Reference
In-Depth Information
gen die Erstellung von einzelnen Satzstücken sowie das Entfernen von bestimmten Satzzei-
chen, wie z. B. Punkten. Dabei geben sie folgendes Beispiel:
Input:
Friends, Romans, Countrymen, lend me your ears;
Output:
Friends Romans Countrymen lend me your ears
Tabelle 3-7:
Beispiel für Tokenisierung
(Quelle: (Manning/Raghavan/Schütze 2009, 59))
Manning/Raghavan/Schütze (2009, 59) fügen hinzu, dass Token oftmals als Begriffe oder
Wörter bezeichnet werden, wobei es jedoch relevant ist, einen Token als eine Instanz einer
Folge von Zeichen in einem bestimmten Dokument anzusehen, welche dann zusammen als
eine nützliche semantische Einheit für die Verarbeitung gruppiert werden.
Grefenstette/Tapanainen (1994, 1) geben eine etwas trivialere Definition und bezeichnen als
Token eine aus einem Text isolierte wortähnliche Einheit. Feldman/Sanger (2007, 318) be-
zeichnen Tokenisierung als Prozess, bei dem der Text in Einheiten unterteilt wird, die meis-
tens Wörtern der entsprechenden Sprache entsprechen. Ein mathematisches Verständnis
sowie die einzelnen Phasen zu Erstellung von Tokens werden anschaulich von Guo (1997,
569) beschrieben.
Das zuvor vorgestellte Beispiel lässt die Tokenisierung als einfachen Bearbeitungsschritt er-
scheinen, denn jedes Token wird durch ein Leerzeichen getrennt und die Satzzeichen werden
ignoriert. Doch gibt es viele Fälle (z. B. Nachnamen die ein Apostroph enthalten), die dafür
angepasste Methoden erforderlich machen. Weitere Herausforderungen ergeben sich durch
Wörter, die mit ihrer Interpunktion den vollen Sinn ergeben, wie z. B. der Doktorgrad "Dr.".
Auch ergeben sich Probleme bei z. B. Werten, die zur besseren Lesbarkeit Satzzeichen enthal-
ten (z. B. 364.478,36).
3.6.3.2 Stoppwörter und Stoppwortlisten
Texte enthalten eine große Anzahl an Wörtern, die für die Analyse wenig Bedeutung besitzen.
Solche Wörter die aus den Texten entfernt werden, werden Stoppwörter genannt
(Hotho/Nürnberger/Paaß 2005, 25; Manning/Raghavan/Schütze 2009, 27). Dabei sind es vor
allem Artikel, Konjunktion, Präposition usw., die nicht in die Betrachtung einbezogen und aus
den Texten herausgefiltert werden. Stoppwörter werden z. B. auch bei der Eingabe in vielen
WWW-Suchmaschinen herausgefiltert (Lawrence/Giles 1998, 99). Eine dabei häufig an-
wendbare Strategie beginnt mit der Sammlung der im Text auftretenden Wörter nach deren
Häufigkeit. Diese am häufigsten verwendeten Ausdrücke werden dann als Basis für die
Stoppwortliste herangezogen (Manning/Raghavan/Schütze 2009, 27).
Weiterhin haben oftmals auch Wörter die relativ selten in Texten vorkommen wenig Bedeu-
tung für eine Analyse und können ebenso mit in die Liste aufgenommen werden
(Frakes/Baeza-Yates 1992, 113). Zusätzlich dazu können sogenannte Stoppwortlisten heran-
gezogen werden, die eine Sammlung von zu löschenden Wörtern beinhalten (Baeza-
Search WWH ::




Custom Search