Database Reference
In-Depth Information
sind, sondern ebenfalls aus den Daten bestimmt werden mussen. Clustering
zielt darauf ab, naturliche Gruppierungen von Daten zu finden. Bei vielen
Verfahren muss allerdings die Zahl der moglichen Cluster vorgegeben werden.
Das im IBM-Tool Intelligent Miner implementierte Demographische Cluster-
ing hingegen passt die Anzahl der Cluster dynamisch den Daten an (vgl. [121],
S. 84).
Modellierung von Abhangigkeiten: Hierbei werden lokale Abhangigkeiten zwi-
schen Variablen etabliert. Bei quantitativen Methoden wird uberdies die
Starke der Abhangigkeiten auf einer numerischen Skala angegeben.
Assoziationen sind Zusammenhange zwischen mehreren Merkmalen und wer-
den meist durch Assoziationsregeln ( “80 % der Kunden, die Bier und Sekt
kaufen, kaufen auch Kartoffelchips” )reprasentiert.
Sequenzanalyse beschreibt Muster in sequentiellen Daten, um Regelmaßigkei-
ten und Trends transparent zu machen (z. B. Zeitreihenanalyse).
Praferenz- und Gutekriterien steuern die Anpassung des Modells bzw. seiner
Parameter an die gegebenen Daten einerseits und an die Zielsetzung des gesamten
KDD-Prozesses andererseits. Ublicherweise wird die Gute eines Modells durch ein
passendes Maß quantifiziert und wahrend des Prozesses optimiert. Ein typisches
solches Maß ist die maximum likelihood , die die Wahrscheinlichkeit eines Modells
bei gegebener Datenbasis misst (s. auch Kapitel 13.5).
Bei den Suchalgorithmen unterscheidet man zwei Typen: Die Parametersuche
sucht bei gegebenem Modell nach den besten Parametern, wahrend die Modellsuche
den Raum aller betrachteten Modelle durchsucht. Die Praferenz- und Gutekriterien
werden ublicherweise in die Suchalgorithmen eingebettet.
Die meisten der beim Data Mining verwendeten Modelle sind nicht KDD-
spezifisch, sondern stammen aus verwandten Gebieten wie der statistischen Daten-
analyse und dem maschinellen Lernen. Einige dieser Methoden werden im Hinblick
auf Data Mining in [121] ausfuhrlicher behandelt. Wir wollen uns im folgenden
Abschnitt naher mit einem Ansatz beschaftigen, der als ein besonders typisches
KDD-Problem gesehen werden kann, namlich mit dem Aufdecken von Assoziatio-
nen. Zum einen lassen sich mit entsprechenden Verfahren auch große Datenbestande
durchforsten, was die Forderung nach E zienz und Skalierbarkeit befriedigt. Zum
anderen reprasentieren Assoziationsregeln Zusammenhange in leicht verstandlicher
und anschaulicher Form, wobei keinerlei Modellannahmen eingehen. Die schwache
Modellstruktur macht Assoziationen fur statistische Verfahren uninteressant, be-
grundet jedoch gerade ihre besondere Rolle im KDD als Trager “neuer Information”.
5.5.4
Assoziationsregeln
Assoziationsregeln beschreiben gewisse Zusammenhange und Regelmaßigkeiten zwi-
schen verschiedenen Dingen wie z. B. den Artikeln eines Warenhauses oder sozio-
okonomischen Merkmalen. Diese Zusammenhange sind ganz allgemeiner Art, also
Search WWH ::




Custom Search