Databases Reference
In-Depth Information
2010, 260). Auf der anderen Seite gibt es jedoch Gründe, diese einzubeziehen.
Knorr/Ng/Tucakov (2000, 1) formulieren hier treffend: "one person's noise is another per-
son's signal.".
3.3.1.4 Datentransformation
Im Zuge der Phase Datentransformation geht es um die Suche nach nützlichen Funktionen zur
Darstellung der Daten in Abhängigkeit des Ziels (Fayyad/Piatetsky-Shapiro/Smyth 1996a,
42). Dazu werden die Datendimensionen reduziert sowie Transformationsmethoden ange-
wendet, die die effektive Anzahl der betrachteten Variablen reduzieren. Weiterhin geht es um
Aspekte wie den Umgang mit Null-Werten, die Aggregation von Attributen zu neuen Attribu-
ten oder um das Sammeln von z. B. Sequenzen von zeitgestempelten Daten (Morik/Scholz
2004, 4). Entsprechend der gesteckten Ziele werden Attribute und Features festgelegt und
eingegrenzt, an welche die Daten angeglichen werden müssen. Somit ist die Datentransforma-
tion meist sehr projektspezifisch und damit von Fall zu Fall unterschiedlich.
3.3.1.5 Data Mining
Nachdem die Daten mit Hilfe verschiedener Verfahren selektiert, bereinigt und transformiert
wurden, beginnt die eigentliche Datenanalyse im Schritt Data Mining. Hier ist nach
Fayyad/Piatetsky-Shapiro/Smyth (1996a, 42-48) das Finden von Mustern die Zielsetzung,
welches von einer korrekten Durchführung der vorhergehenden Schritte abhängig ist. In die-
sem Schritt werden durch iterative und wiederholte Anwendung von Data Mining-Methoden
die Daten analysiert. Dabei können vornehmlich zwei Arten von Zielen verfolgt werden: (1)
Verifikation und (2) Entdeckung . Bei der Verifikation werden zuvor aufgestellte Hypothesen
überprüft, während bei der Entdeckung neue Muster gefunden werden sollen. Die Entdeckung
wiederum untergliedert sich in die Vorhersage von zukünftigen Verhalten von Systemen so-
wie in die Beschreibung und verständliche Darstellung von Mustern (Fayyad/Piatetsky-
Shapiro/Smyth 1996a, 43). Aufgrund der Vielzahl an möglichen Methoden werden diese in
Kapitel 3.5 dargestellt.
3.3.1.6 Interpretation und Evaluation
Im letzten Schritt des KDD-Prozesses werden die gefundenen Muster visualisiert und inter-
pretiert. Das daraus abgeleitete und extrahierte Wissen muss entweder direkt genutzt werden,
zur Nutzung in anderen Domänen/Bereichen weitergegeben werden oder einfach dokumen-
tiert und an potentiell interessierte Stakeholder verteilt werden. Dieser Schritt beinhaltet dabei
den Abgleich der Erkenntnisse mit vorher verfügbarem Wissen oder angenommenen Tatbe-
ständen (Fayyad/Piatetsky-Shapiro/Smyth 1996a, 42).
3.3.2
Das CRISP-DM-Zyklenmodell
Ein aus dem Bedarf der industriellen Praxis entstandenes Prozessmodell und dem KDD-
Prozess von Fayyad/Piatetsky-Shapiro/Smyth (1996c) ähnliches Modell ist der CRoss-
Industry Standard Process for Data Mining (CRISP-DM) (Chapman et al. 2000). Shar-
ma/Osei-Bryson (2008, 4114) bezeichnen es als ein im Vergleich zu anderen Modellen detail-
Search WWH ::




Custom Search