Database Reference
In-Depth Information
aus den vorherigen Kapiteln bekannt sein. In dieser Komponente wird der Input durchgän-
gig in Kleinbuchstaben transformiert. Dafür ist im Expression Builder der tMap die Katego-
rie StringHandling mit der Funktion „DOWNCASE()“ zu wählen und der Input an diese zu
übergeben. Das Ergebnis sollte dann der Abbildung 9.13 gleichen.
BILD 9.13 Anwendung der Downcase-Funktion
Anschließend sollen Zeilen mit unerwünschtem Inhalt geiltert werden. Dafür wird die
Komponente tFilterRow dem Job hinzugefügt. Diese bietet verschiedene Möglichkeiten für
die Filterung. Um Zeilen zu entfernen, die das Wort, der zu Beginn angelegten Variable
„ZeilenFilter“ enthalten, ist im Reiter Components der Haken bei Use advanced mode zu
setzen. Im Advanced -Feld wird anschließend folgende Zeile eingetragen:
LISTING 9.4 Filterung von Zeilen
OUT_TwitterZeilen.text.contains(context.ZeilenFilter) == false
„OUT_TwitterZeilen.text“ ist der Stream, welcher von der tMap aus dem vorherigen Schritt
weitergeleitet wird. Mit „contains(context.ZeilenFilter)“ wird abgefragt, ob der Inhalt der
Variable „ZeilenFilter“ in einer Zeile vorkommt. Durch „==false“ wird sichergestellt, dass
alle Zeilen, in denen das Wort nicht vorkommt, auch nicht entfernt bzw. geiltert werden.
Nachdem nun die unerwünschten Zeilen entfernt wurden, sollen die verbliebenen Zeilen
in Einzelworte unterteilt werden. Dies geschieht mit Hilfe der tNormalize -Komponente. Ist
die Komponente dem Job hinzugefügt, kann unter dem Reiter Component das Trennzei-
chen angegeben werden. Um Einzelwörter aus einem Textfeld zu erhalten, ist es notwen-
dig, die Daten an Leerzeichen zu teilen. Dafür wird “ “ (Leerzeichen) im Feld Item separator
eingetragen.
Im nächsten Schritt sollen einige Sonderzeichen aus den Daten entfernt werden. Um dies
zu erreichen, wird die Komponente tReplace dem Job hinzugefügt. Diese beinhaltet im Sim-
ple mode die einfach zu verwendende Funktion „Suchen & und Ersetzen“. In der Spalte
Search ist jeweils das gesuchte Zeichen und in Replace with die Ersetzung einzutragen. Da
in diesem Job die Zeichen nur entfernt werden sollen, werden Fundstellen mit einem Leer-
string (““) ersetzt. Für die Suche können beliebige Zeichen oder Zeichenketten angegeben
werden. Das Ergebnis kann dann beispielsweise wie in Abbildung 9.14 aussehen.
Nachdem störende Zeichen entfernt wurden, erfolgt eine Filterung basierend auf den Ein-
zelworten. Wie beim Entfernen von unerwünschten Zeilen, wird hierfür die Komponente
tFilterRow verwendet. Ziel ist es, Weblinks (erkennbar durch „http“), Erwähnungen von
Usern, Email-Adressen (beides erkennbar durch „@“) sowie Hashtags (erkennbar durch
„#“) herauszuiltern. Zusätzlich sollen nur Wörter weitergeleitet werden, die aus mindes-
tens 4 Buchstaben bestehen. Zur Verdeutlichung der Funktionalität wird an dieser Stelle
eine Verknüpfung des einfachen, mit dem erweiterten Modus, verwendet. Im Simple mode
wird festgelegt, dass die Länge des Wortes größer drei sein muss (siehe Abbildung 9.15).
Die weiteren Filterungen erfolgen im Advanced mode . In diesem werden folgende Daten
eingeben:
Search WWH ::




Custom Search