Databases Reference
In-Depth Information
Integration und
Visualisierung
Interpretation und
Evaluation
Data Mining
Datentransformation
Wissen
Datenvorbereitung
und -bereinigung
Pattern
Datenauswahl
transformierte
Daten
vorbereitete
Daten
ausgewählte
Daten
Daten
Abbildung 3-5:
Ein Überblick über die Schritte, die den KDD-Prozess bilden
(Quelle: (Fayyad/Piatetsky-Shapiro/Smyth 1996a, 42))
Der Prozess beginnt mit der Entwicklung eines Verständnisses für die Anwendungsdomäne
(engl. Business Understanding - grafisch nicht dargestellt) und der Ableitung des KDD-Ziels
(Fayyad/Piatetsky-Shapiro/Smyth 1996a, 42). Dem folgt die Schaffung einer Analysebasis
durch die Auswahl geeigneter Datensätze sowie deren Bereinigung und Vorbereitung. An-
schließend erfolgt die Transformation der Daten für eine geeignete Repräsentation zur Analy-
se. Für das festgelegte Ziel werden geeignete Data Mining-Methoden (z. B. Clustering,
Regression, Klassifikation, siehe Kapitel 3.5) ausgewählt. Schließlich werden passende Mo-
delle, Algorithmen und Parameter selektiert, mit deren Hilfe nach Mustern gesucht wird. Die-
se werden im Folgeschritt interpretiert, um abschließend die gewonnenen Erkenntnisse zurück
in die Domäne zu überführen (Fayyad/Piatetsky-Shapiro/Smyth 1996a, 42). Folgend werden
die neun Teilschritte Domänenverständnis und Zieldefinition , Datenselektion , Datenvorberei-
tung und -bereinigung , Datentransformation , zielabhängige Data Mining-Methodenwahl ,
Algorithmen- und Hypothesenauswahl , Mustersuche durch Data Mining, Musterinterpretation
sowie Wissensnutzung und -verbreitung detaillierter beschrieben.
3.3.1.1 Domänenverständnis und Zieldefinition
Zu Beginn eines KDD-Prozesses wird vom Datenanalysten verlangt, sich ein Domänenver-
ständnis anzueignen und die Ziele der Analysen zu definieren. Grundsätzlich kann das Ziel
die Entdeckung von Gegebenheiten, aber auch die Vorhersage von zukünftigen Tatsächlich-
keiten sein. Abhängig davon wird der gesamte weitere Prozess geplant und gesteuert. Mit in
die Betrachtung einbezogen werden wirtschaftliche Ziele und Erfordernisse. Da die Erlangung
von Domänenverständnis aufgrund einiger Faktoren in den letzten Jahren an Bedeutung ge-
wonnen hat, widmet sich die Forschung diesem Aspekt verstärkt unter der Namensgebung
Search WWH ::




Custom Search