Databases Reference
In-Depth Information
3 Knowledge Discovery in Databases
Die Gewinnung von Wissen aus großen Datenbeständen basiert oftmals auf der statistischen
und teilweise manuellen Analyse und Interpretation. Die Menge an erfassten und gespeicher-
ten Daten in Domänen wie z. B. Marketing, Finanzen, Gesundheitswesen, Einzelhandel oder
Fertigung steigt jedoch rasant an (Fayyad/Piatetsky-Shapiro/Smyth 1996a, 37). Zusätzlich ist
die manuelle Untersuchung von Daten zeit- und kostenintensiv und nicht immer zielführend,
da die Verarbeitungsfähigkeit mit zunehmender Informationsmenge abnimmt. Deshalb ist ein
Bedarf nach computergestützten Techniken und Methoden zur Extraktion unentdeckter und
nützlicher Informationen entstanden. In den folgenden Abschnitten werden die Grundlagen
des Fachgebiets dargestellt, es von anderen Bereichen des Wissensmanagements abgegrenzt,
die Vorgehensweisen und ausgewählte Methoden beschrieben sowie ein kurzer Überblick
über die IT-Unterstützung gegeben.
3.1
Grundlagen zum KDD
Die Gesamtheit der Vorgehensweisen des Knowledge Discovery in Databases zielt darauf ab,
gültige, bisher unbekannte, nützliche und verständliche Muster in großen Datensätzen zu
identifizieren (Bortz/Döring 2009, 380; Fayyad/Piatetsky-Shapiro/Smyth 1996a, 40;
Maimon/Rokach 2005, 11). KDD ist somit ein umfassender Prozess der Wissensidentifikation
mit der Eigenschaft, sowohl insgesamt, aber auch bezüglich der darin enthaltenen Teilschritte
ein interaktiver Vorgang zu sein (Fayyad/Piatetsky-Shapiro/Smyth 1996a, 41;
Maimon/Rokach 2005, 2). Daten können dadurch zu abstrakten und kompakteren Datenmen-
gen überführt und sinnvoll analysiert werden (Fayyad/Piatetsky-Shapiro/Smyth 1996a, 1;
Fayyad/Piatetsky-Shapiro/Smyth 1996b, 6). Im Prozess findet die Anwendung spezifischer
Algorithmen zur Identifikation und Extrakation von Mustern aus großen Datenbeständen statt
(Fayyad/Piatetsky-Shapiro/Smyth 1996a, 38; Pal/Mitra 2004, 7-11; Petersohn 2005, 4). Für
eine globale Sicht auf die Daten werden diese in ein einheitliches Format überführt und in
einem Data Warehouse bereitgestellt (Krcmar 2010, 131f.).
Anwendung findet das KDD beispielsweise in Bereichen wie der Kreditvergabe im Finanz-
dienstleistungssektor oder im Warenabsatz (Witten/Frank 2005, 22-29). Durch die Anwen-
dung rechnergestützter Methoden und Werkzeuge wird in diesen Branchen der zeit- und
kostenintensive sowie mühselige manuelle Anteil an der Auswertung reduziert (Chen/Nayak
2007, 1). Der in diesem Zusammenhang oft genannte Begriff Data Mining stellt einen wesent-
lichen Kernprozess des KDD als Prozess der Wissensidentifikation dar. In diesem Schritt
werden Algorithmen bzw. Methoden zur autonomen Identifikation und Extraktion von Mus-
tern aus großen Datenbeständen angewendet (Fayyad/Piatetsky-Shapiro/Smyth 1996a, 1;
Petersohn 2005, 8). Nach Fayyad/Piatetsky-Shapiro/Smyth (1996a, 39) ist eine Unterschei-
dung der Begriffe zwingend erforderlich, da nur mit allen im KDD-Prozess enthaltenen Teil-
schritten brauchbare und zugleich valide Ergebnisse erzielt werden können.
KDD sieht die Anwendung von Data Mining als Hauptelement vor. An dessen Stelle oder in
Kombination kann auch Text Mining als automatisierter Vorgang zur Musteridentifikation in
Datenbanken durchgeführt werden (Fundel 2007, 11; Witten/Frank 2005, 351). Der wesentli-
Search WWH ::




Custom Search