Maschinelles Lernen - Methoden Wissensbasierter Systeme

Database Reference

In-Depth Information

sind, sondern ebenfalls aus den Daten bestimmt werden mussen. Clustering

zielt darauf ab, naturliche Gruppierungen von Daten zu finden. Bei vielen

Verfahren muss allerdings die Zahl der moglichen Cluster vorgegeben werden.

Das im IBM-Tool Intelligent Miner implementierte Demographische Cluster-

ing hingegen passt die Anzahl der Cluster dynamisch den Daten an (vgl. [121],

S. 84).

•

Modellierung von Abhangigkeiten: Hierbei werden lokale Abhangigkeiten zwi-

schen Variablen etabliert. Bei quantitativen Methoden wird uberdies die

Starke der Abhangigkeiten auf einer numerischen Skala angegeben.

•

Assoziationen sind Zusammenhange zwischen mehreren Merkmalen und wer-

den meist durch Assoziationsregeln ( “80 % der Kunden, die Bier und Sekt

kaufen, kaufen auch Kartoffelchips” )reprasentiert.

•

Sequenzanalyse beschreibt Muster in sequentiellen Daten, um Regelmaßigkei-

ten und Trends transparent zu machen (z. B. Zeitreihenanalyse).

Praferenz- und Gutekriterien steuern die Anpassung des Modells bzw. seiner

Parameter an die gegebenen Daten einerseits und an die Zielsetzung des gesamten

KDD-Prozesses andererseits. Ublicherweise wird die Gute eines Modells durch ein

passendes Maß quantifiziert und wahrend des Prozesses optimiert. Ein typisches

solches Maß ist die maximum likelihood , die die Wahrscheinlichkeit eines Modells

bei gegebener Datenbasis misst (s. auch Kapitel 13.5).

Bei den Suchalgorithmen unterscheidet man zwei Typen: Die Parametersuche

sucht bei gegebenem Modell nach den besten Parametern, wahrend die Modellsuche

den Raum aller betrachteten Modelle durchsucht. Die Praferenz- und Gutekriterien

werden ublicherweise in die Suchalgorithmen eingebettet.

Die meisten der beim Data Mining verwendeten Modelle sind nicht KDD-

spezifisch, sondern stammen aus verwandten Gebieten wie der statistischen Daten-

analyse und dem maschinellen Lernen. Einige dieser Methoden werden im Hinblick

auf Data Mining in [121] ausfuhrlicher behandelt. Wir wollen uns im folgenden

Abschnitt naher mit einem Ansatz beschaftigen, der als ein besonders typisches

KDD-Problem gesehen werden kann, namlich mit dem Aufdecken von Assoziatio-

nen. Zum einen lassen sich mit entsprechenden Verfahren auch große Datenbestande

durchforsten, was die Forderung nach E zienz und Skalierbarkeit befriedigt. Zum

anderen reprasentieren Assoziationsregeln Zusammenhange in leicht verstandlicher

und anschaulicher Form, wobei keinerlei Modellannahmen eingehen. Die schwache

Modellstruktur macht Assoziationen fur statistische Verfahren uninteressant, be-

grundet jedoch gerade ihre besondere Rolle im KDD als Trager “neuer Information”.

5.5.4

Assoziationsregeln

Assoziationsregeln beschreiben gewisse Zusammenhange und Regelmaßigkeiten zwi-

schen verschiedenen Dingen wie z. B. den Artikeln eines Warenhauses oder sozio-

okonomischen Merkmalen. Diese Zusammenhange sind ganz allgemeiner Art, also

Methoden Wissensbasierter Systeme

Search WWH ::

Custom Search

Home