Databases Reference
In-Depth Information
Runkler (2010, 2) unterteilt den KDD-Prozess in die Teilschritte Vorbereitung, Vorverarbei-
tung, Mustererkennung und Nachbearbeitung. Im ersten Schritt werden die relevanten Daten
ausgewählt und dann auf Fehler (z. B. Ausreißer) überprüft. Dabei sollte berücksichtigt wer-
den, dass Fehler im Zuge einer Analyse nützliche Erkenntnisse bringen können und nicht un-
bedingt aus dem Datensatz eliminiert werden sollten. Durch Anwendung von Mining-
Methoden wird im nächsten Schritt nach Mustern gesucht, welche in der Nachbereitung mit
dem Ziel der Wissensgenerierung analysiert und interpretiert werden. Das beschriebene Ver-
fahren muss dabei nicht sequenziell durchlaufen werden. Oftmals ist ein iteratives Vorgehen
mit Rücksprüngen erforderlich, da in den Ergebnissen Fehler auftauchen, die durch Anpas-
sung des Prozesses nach und nach beseitigt werden (siehe Abbildung 3-3).
Vorbereitung
Vorverarbeitung
Mustererkennung
Nachbereitung
• Planung
• Datensammlung
• Merkmalsgenerierung
• Datenauswahl
• normalisieren
• säubern
• filtern
• ergänzen
• korrigieren
• transformieren
• Korrelation
• Regression
• Modellierung
• Klassifikation
• Entscheidungsbäume
• Clusteranalyse
• In terpretation
• Dokumentation
• Auswertung
Abbildung 3-3:
Ablauf der Datenanalyse
(Quelle: (Runkler 2010, 2))
Petersohn (2005, 12f.) beschreibt den Prozess im Vergleich dazu mit den folgenden sieben
Schritten granularer: Aufgabendefinition , Datenselektion , Datenaufbereitung , Datenanalyse ,
Modellevaluation , Anwendung des Analysemodells und Ergebnisinterpretation . Weiterhin
verbreitet ist die Beschreibung des KDD-Prozesses von Han/Kamber (2006, 5-7). Diese beto-
nen dabei insbesondere den iterativen Charakter des Vorgehens, der durch Sprünge zwischen
den einzelnen Phasen in beide Richtungen dargestellt wird.
In den einzelnen Phasen müssen im Zuge von KDD-Projekten unterschiedliche Aufwände
aufgebracht werden. Die Wissenschaft hat dazu in verschiedenen Arbeiten Schätzungen abge-
geben, deren Ergebnisse anschaulich von Kurgan/Musilek (2006, 17f.) dargestellt werden.
Search WWH ::




Custom Search