Knowledge Discovery in Databases - Knowledge Discovery in Databases

Databases Reference

In-Depth Information

In Abbildung 3-11 wird ein beispielhafter Entscheidungsbaum dargestellt. Ein weiteres Bei-

spiel wird von Braha/Shmilovici (2003, 644-652) beschrieben, die auch die Anwendung der

Methode als Ganzes anschaulich darstellen.

Motor

Verbrennungs-

motor

Elektromotor

Raketenmotor

Feststofftrieb-

werk

Flüssigkeitstrieb-

werk

Benzinmotor

Dieselmotor

Abbildung 3-11:

Entscheidungsbaum am Beispiel Motor

(Quelle: Eigene Darstellung)

Runkler (2010, 104) argumentiert, dass Entscheidungsbäume "[…] bei der Klassifikation

dann effizient sind, wenn viele potentielle Merkmale vorhanden sind, von denen aber nur we-

nige für die Klassifikation benötigt werden.". Die Methode liefert zudem auch relevante

Strukturinformationen, die auch zur Selektion von Merkmalen eingesetzt werden kann. Wei-

terhin können aus Entscheidungsbäumen auch Regeln abgeleitet werden (Witten/Frank 2001,

181f.). Dazu wird für jedes einzelne Blatt eine Regel formuliert, indem man von unten ausge-

hend die jeweiligen Pfade nach oben abgeht und durch ein logisches UND verknüpft.

3.5.4

Methoden der Assoziationsanalyse

Die Methoden der Assoziationsanalyse erlauben die Berechnung von "Wenn-Dann"-Regeln.

Oft werden die Algorithmen im Marketing bei der Analyse von Warenkörben angewendet,

wodurch die Korrelationen und Abhängigkeiten zwischen Produkten festgestellt werden kön-

nen (Hastie/Tibshirani/Friedman 2009, 487; Saathoff 2003, 5). So kann z. B. die Wahrschein-

lichkeit der Regel ausgerechnet werden, bei wie viel Prozent von Käufen von Cola auch

gleichzeitig Chips gekauft werden. Das Ziel von Assoziationsregeln ist nach

Nisbet/Elder/Miner (2009, 126) somit die Entdeckung von Beziehungen und Assoziationen

zwischen Ausprägungen von Variablen, um nicht bekannte Muster in großen Datensätzen zu

finden. Als Beispiel werden an dieser Stelle auch recommender engines genannt, die z. B. in

Onlinestores Käufern eines bestimmten Buches weitere für ihn potentiell interessante Bücher

anbieten. Es werden folglich häufig gemeinsam auftretende Datenobjekte identifiziert

(Petersohn 2005, 101). Agrawal/Imielinski/Swami (1993, 208) waren die ersten, die dazu ein

grundsätzliches formales Modell aufgestellt haben. Dieses wird folgend beschrieben:

Eine Menge von binären Attributen Z = I 1 , I 2 , …, I m wird Items genannt. Zusätzlich wird eine

Menge von Transaktionen T betrachtet. Jede einzelne Transaktion t wird dann durch einen

Vektor repräsentiert, der t[k] = 1 im Fall des Kauf des Items ist, andernfalls t[k] = 0. Jede

Search WWH ::

Custom Search

Home