Database Reference
In-Depth Information
Vorbildern. Einen guten Uberblick uber das Gebiet des KDD verschaffen [66], [64]
und [165].
Bevor wir auf die Vorgange der Wissensfindung und des Data Mining im Be-
sonderen eingehen, wollen wir einige typische Einsatzbereiche, Fragestellungen und
Anwendungen fur KDD auflisten:
Produktion : Informationen zur Prozessoptimierung und Fehleranalyse;
Okonomie : Warenkorbanalyse; Katalog-Design; Supermarkt Layout;
Bankenwesen : Aufdeckung von Kreditkartenmissbrauch, Bonitatsanalyse und
Devisenkursprognose;
(Electronic) Commerce : Kundenprofile, Auswahl moglicher Kunden (Zielgrup-
pen), Kundensegmentierung;
Internet : Suchen nach relevanter Information (web mining);
Wissenschaft : Gewinnung wichtiger Informationen uber beobachtete Phano-
mene, Finden kausaler Zusammenhange;
Geologie : Au nden verdachtiger seismographischer Strukturen, z.B. zur Vor-
hersage von Erdbeben.
5.5.2
Der KDD-Prozess
Data Mining, d. h. das Au nden von Mustern in Daten, ist der interessanteste und
wichtigste Teil des KDD-Prozesses. Sein Erfolg hangt jedoch wesentlich von dem
Umfeld ab, in dem er durchgefuhrt wird, also z. B. von der Qualitat der Daten
und von der Genauigkeit der Aufgabenstellung. Der gesamte KDD-Prozess umfasst
daher die folgenden Schritte:
1. Hintergrundwissen und Zielsetzung: Relevantes, bereichsspezifisches Wissen
wird zur Verfugung gestellt, und die Ziele des durchzufuhrenden Knowledge
Discovery sollten definiert werden.
2. Datenauswahl: Eine Menge von Daten wird als Untersuchungsobjekt festge-
legt, außerdem erfolgt gegebenenfalls eine Vorauswahl der betrachteten Va-
riablen.
3. Datenbereinigung: Ausreißer mussen aus der Datenbasis entfernt, Rauschef-
fekte herausgefiltert werden. Außerdem werden Datentypen festgelegt, und
die Behandlung fehlender Daten muss geklart werden.
4. Datenreduktion und -projektion: Die vorbehandelte Datenmenge wird noch
einmal komprimiert durch Reduktion oder Transformation der behandelten
Variablen.
5. Modellfunktionalitat: Welchem Zweck dient das Data Mining? Hier unterschei-
det man zwischen Klassifikation, Clustering, Regressionsanalyse u.a.m. (s.u.
Abschnitt 5.5.3).
Search WWH ::




Custom Search