Databases Reference
In-Depth Information
verschiedenste Aufgaben der intensiven Datenanalyse (Gluchowski et al. 2009, 218; Rapid-I
2010a).
WEKA
Das Softwaretool WEKA (Waikato Environment for Knowledge Analysis) ist eine in Java
implementierte Open Source-Plattform für Machine Learning, Data Mining und Text Mining.
Mit der Entwicklung von WEKA wurde ursprünglich im Jahre 1993 an der Universität
Waikato in Neuseeland begonnen. Die Firma Pentaho übernahm 2006 WEKA und integrierte
sie in das eigene Software-Framework "Pentaho Open Business Intelligence Suite". Als ei-
genständige Version ist sie jedoch nach wie vor unter GPL verfügbar (Gluchowski et al. 2009,
226; The University of Waikato 2010; Witte/Mülle 2006, 365f.).
Die Anwendung selbst besteht aus zwei Hauptkomponenten, der Softwareoberfläche und ei-
ner Java-Bibliothek. Die Java-Bibliothek beinhaltet Algorithmen und Erweiterungen, die das
Einbinden von Weka in andere Anwendungen ermöglicht. Die Weka-Oberfläche beinhaltet
vier unabhängige Anwendungen, den Weka-Explorer, den Weka-Experimenter, das Weka-
KnowledgeFlow und die Weka-SimpleCLI (Bouckaert et al. 2010, 29ff.; Gluchowski et al.
2009, 228). Es handelt sich somit um ein graphisches Tool, in dem die Workflows als Gra-
phen dargestellt werden. Insgesamt sind verschiedene Algorithmen und Visualisierungstools
zur Vorverarbeitung, Verarbeitung und Analyse von Daten implementiert (Witten/Frank
2005, 365f.). Die Software ist weit verbreitet und findet sowohl in der Forschung, als auch in
der Praxis Anwendung (Chen/Nayak 2007, 4).
3.7.1
Kriterien zur Toolauswahl
Um aus der Vielzahl der verfügbaren Werkzeuge das geeignetste für die Analysen dieser Ar-
beit zu identifizieren, können neben persönlichen Präferenzen einige Kriterien zur Auswahl
herangezogen werden. Gluchowski et al. (2009, 188f.) unterscheiden in ihrer umfangreichen
Evaluation von quelloffenen Werkzeugen zwischen prozessspezifischen, projektspezifischen
und toolspezifischen Kriterien. Bei den prozessspezifischen Kriterien legen sie aufgrund der
Verbreitung und der Bedeutung das CRISP-DM Modell zugrunde (vgl. Kapitel 3.3.2) und
orientieren sich an den dort beschriebenen Phasen im Analyseprozess. Folgende Kriterien
werden für einen Vergleich und eine Bewertung von Software definiert:
Search WWH ::




Custom Search