Databases Reference
In-Depth Information
hend abzudecken. Diese generischen Aufgaben sollen auf der einen Seite so vollständig und
auf der anderen Seite so stabil wie möglich sein. Die Vollständigkeit betrifft den gesamten
Prozess des Data Mining und alle möglichen Data Mining-Anwendungen. Die Stabilität soll
noch nicht absehbare Entwicklungen und neue gültige Modellierungstechniken beachten.
In der dritten spezifischen Task-Ebene werden die Maßnahmen beschreiben, die in bestimm-
ten Situationen durchgeführt werden sollen. Als Beispiel nennen Chapman et al. (2000, 9) die
Aufgabe auf Ebene zwei, saubere Daten zu generieren. Die dritte Ebene beschreibt dann, wie
diese Aufgabe in verschiedenen Situationen durch z. B. das Reinigen numerischer Werte ver-
sus Reinigung kategorischer Werten durchgeführt werden kann. Innerhalb der vierten und
letzten Ebene, der Prozessinstanz, geht es um die Aufzeichnung der Aktionen, Entscheidun-
gen und Ergebnisse des Data Mining-Vorhabens. Die Prozessinstanzen sind nach den Aufga-
ben auf den höheren Ebenen organisiert und stellen dar, was tatsächlich passiert. In den
folgenden Abschnitten werden die einzelnen Phasen des Modells beschrieben (Bartok et al.
2010, 41f.; Chapman et al. 2000, 14f.; Sharma/Osei-Bryson 2009a, 4115):
1. Business Understanding
In dieser initialen Phase ist die Zielstellung, Projektanforderungen und -ziele aus Sicht der
Organisation zu verstehen. Dabei liegt ein besonderer Fokus auf die Fragestellungen aus be-
triebswirtschaftlicher Sicht. Das Verständnis soll dazu verwendet werden, eine Problemstel-
lung mit zu erreichenden Ergebnissen für das Data Mining-Projekt zu entwickeln. Zusätzlich
wird ein Entwurf eines vorläufigen Plans zur Erreichung dieser Ziele als weiterer Bestandteil
dieser Phase ausgearbeitet.
2. Data Understanding
Als nächstes wird in der Phase Data Understanding eine erste Datensammlung durchgeführt.
Diese wird dazu genutzt, um sich durch verschiedene Aktivitäten mit ihnen vertraut zu ma-
chen. Es soll zum einen Gewissheit über die Datenqualität erlangt werden, um eventuelle
Probleme zu identifizieren. Weiterhin sollen interessante Teilinhalte sowie Hypothesen über
vermutete und versteckte Informationen gebildet werden.
3. Data Preparation
Die für die Analyse ausgewählte Datensammlung wird in diesem Schritt für die weitere Bear-
beitung zusammengestellt. Die dabei durchzuführenden Aufgaben sind die Auswahl von At-
tributen und die Transformation und Bereinigung der Daten zum Zweck der Erstellung eines
geeigneten Eingangsformats der Rohdaten für die entsprechende Data Mining-Software. Da-
bei kann die Bereinigung mehrere Male nach einer nicht vorgeschriebenen Reihenfolge in
Abhängigkeit von den Datenformaten durchgeführt werden.
4. Modelling
Ausgehend von der Problemstellung werden beim Modelling die passenden Verfahren, Algo-
rithmen und dazugehörige Parameter bestimmt. Typischerweise gibt es verschiedene Techni-
Search WWH ::




Custom Search