Database Reference
In-Depth Information
6. Verfahrenswahl: Bestimmung eines Data Mining-Verfahrens, das zu den un-
tersuchten Daten und der Zielvorgabe des gesamten KDD-Prozesses passt.
7. Data Mining: der eigentliche Data Mining-Prozess, bei dem das ausgewahlte
Verfahren auf die behandelte Datenmenge angewandt wird, um interessante
Informationen z. B. in Form von Klassifikationsregeln oder Clustern zu extra-
hieren.
8. Interpretation: Die im Data Mining-Schritt gewonnene Information wird auf-
bereitet, indem z. B. redundante Information entfernt wird, und schließlich
dem Benutzer in verstandlicher Form (evtl. durch Visualisierung) prasentiert.
Diese Schritte werden, wenn notig, mehrfach durchlaufen, bis ein den Anforderun-
gen entsprechendes, moglichst gutes Gesamtergebnis zustande gekommen ist. Dem
KDD-Prozess schließt sich eine Phase an, in der die neuen Erkenntnisse in das bis-
herige Wissenssystem eingearbeitet werden, wobei mogliche Konflikte gelost werden
mussen. Ferner ist zu uberlegen, ob und welche Entscheidungsprozesse und Hand-
lungen auf der Basis der gewonnenen Information in Gang gesetzt werden sollten.
Der folgende Abschnitt wird sich mit dem Herzstuck des Knowledge Discovery,
mit dem Data Mining-Vorgang, beschaftigen.
5.5.3
Data Mining
Ziel des Data Mining ist es, interessante Muster, Strukturen, Abhangigkeiten usw.
aus Daten zu extrahieren. Entsprechende Verfahren existieren bereits in der Muster-
erkennung und dem maschinellen Lernen. Beispielsweise sind die in den Abschnit-
ten 5.3 und 5.4 vorgestellten Verfahren zum Lernen von Entscheidungsbaumen und
Konzepten in einem Data Mining-Prozess einsetzbar. Auch in der Statistik und
in der Theorie der Datenbanken findet man geeignete Ansatze. Von Data Mining-
Algorithmen erwartet man insbesondere, dass sie auch auf großen Datenmengen
arbeiten konnen. Die Skalierbarkeit der Verfahren ist neben der Benutzerfreund-
lichkeit und der praktischen Einsetzbarkeit ein wichtiges Gutekriterium [65].
Bei Data Mining-Algorithmen lassen sich als wesentliche Bestandteile die Kom-
ponenten Modell, Praferenz- oder Gutekriterien und Suchalgorithmus unterschei-
den.
Das Modell legt fest, in welcher Form gefundene Erkenntnisse reprasentiert
werden und welchem Zweck sie dienen. Mogliche Reprasentationsformen sind z. B.
Entscheidungsbaume, Klassifikationsregeln, beispielbasierte Formen wie beim fall-
basierten Schließen, graphische Darstellungen sowie komplexere Reprasentationen
wie neuronale und Bayessche Netzwerke. Zu den verbreitetsten Einsatzgebieten fur
Data Mining gehoren:
Klassifikation: Ein Objekt wird einer oder mehreren vordefinierten Kategorien
zugeordnet.
Clustering: Ein Objekt wird einer oder mehreren Klassen bzw. Clustern zuge-
ordnet, wobei im Unterschied zur Klassifikation diese Klassen nicht vorgegeben
Search WWH ::




Custom Search