Database Reference
In-Depth Information
sind, sondern ebenfalls aus den Daten bestimmt werden mussen. Clustering
zielt darauf ab, naturliche Gruppierungen von Daten zu finden. Bei vielen
Verfahren muss allerdings die Zahl der moglichen Cluster vorgegeben werden.
Das im IBM-Tool
Intelligent Miner
implementierte
Demographische Cluster-
ing
hingegen passt die Anzahl der Cluster dynamisch den Daten an (vgl. [121],
S. 84).
•
Modellierung von Abhangigkeiten:
Hierbei werden lokale Abhangigkeiten zwi-
schen Variablen etabliert. Bei quantitativen Methoden wird uberdies die
Starke der Abhangigkeiten auf einer numerischen Skala angegeben.
•
Assoziationen
sind Zusammenhange zwischen mehreren Merkmalen und wer-
den meist durch
Assoziationsregeln
(
“80 % der Kunden, die Bier und Sekt
kaufen, kaufen auch Kartoffelchips”
)reprasentiert.
•
Sequenzanalyse
beschreibt Muster in sequentiellen Daten, um Regelmaßigkei-
ten und Trends transparent zu machen (z. B. Zeitreihenanalyse).
Praferenz- und Gutekriterien
steuern die Anpassung des Modells bzw. seiner
Parameter an die gegebenen Daten einerseits und an die Zielsetzung des gesamten
KDD-Prozesses andererseits. Ublicherweise wird die Gute eines Modells durch ein
passendes Maß quantifiziert und wahrend des Prozesses optimiert. Ein typisches
solches Maß ist die
maximum likelihood
, die die Wahrscheinlichkeit eines Modells
bei gegebener Datenbasis misst (s. auch Kapitel 13.5).
Bei den
Suchalgorithmen
unterscheidet man zwei Typen: Die
Parametersuche
sucht bei gegebenem Modell nach den besten Parametern, wahrend die
Modellsuche
den Raum aller betrachteten Modelle durchsucht. Die Praferenz- und Gutekriterien
werden ublicherweise in die Suchalgorithmen eingebettet.
Die meisten der beim Data Mining verwendeten Modelle sind nicht KDD-
spezifisch, sondern stammen aus verwandten Gebieten wie der statistischen Daten-
analyse und dem maschinellen Lernen. Einige dieser Methoden werden im Hinblick
auf Data Mining in [121] ausfuhrlicher behandelt. Wir wollen uns im folgenden
Abschnitt naher mit einem Ansatz beschaftigen, der als ein besonders typisches
KDD-Problem gesehen werden kann, namlich mit dem Aufdecken von Assoziatio-
nen. Zum einen lassen sich mit entsprechenden Verfahren auch große Datenbestande
durchforsten, was die Forderung nach E
zienz und Skalierbarkeit befriedigt. Zum
anderen reprasentieren Assoziationsregeln Zusammenhange in leicht verstandlicher
und anschaulicher Form, wobei keinerlei Modellannahmen eingehen. Die schwache
Modellstruktur macht Assoziationen fur statistische Verfahren uninteressant, be-
grundet jedoch gerade ihre besondere Rolle im KDD als Trager “neuer Information”.
5.5.4
Assoziationsregeln
Assoziationsregeln beschreiben gewisse Zusammenhange und Regelmaßigkeiten zwi-
schen verschiedenen Dingen wie z. B. den Artikeln eines Warenhauses oder sozio-
okonomischen Merkmalen. Diese Zusammenhange sind ganz allgemeiner Art, also