Maschinelles Lernen - Methoden Wissensbasierter Systeme

Database Reference

In-Depth Information

Die Mengenschreibweise in Pramisse und Konklusion einer Assoziationsregel

bedeutet die konjunktive Verknupfung der beteiligten Elemente. So garantiert be-

reits die Syntax einer Assoziationsregel ein gewisses Maß an Relevanz und Interes-

santheit, im Gegensatz zu Regeln, die beliebige logische Ausdrucke zulassen und oft

schwer zu durchschauen sind. Support und Konfidenz sind zusatzliche Parameter,

an denen die Relevanz einer Regel beurteilt wird. Typischerweise (insbesondere im

wirtschaftlichen Bereich) soll beides relativ hoch sein, so dass sich die klassische

Suche nach Assoziationsregeln folgendermaßen beschreiben lasst:

Finde alle Assoziationsregeln, die in der betrachteten Datenbasis mit

einem Support von mindestens minsupp und einer Konfidenz von min-

destens minconf gelten, wobei minsupp und minconf benutzerdefinierte

Werte sind.

Dieses Problem wird in zwei Teilprobleme aufgespalten:

•

Finde alle Itemmengen, deren Support uber der minsupp -Schwelle liegt; die-

se Itemmengen werden haufige Itemmengen ( frequent itemsets )oder große

Itemmengen ( large itemsets )genannt.

Finde in jeder haufigen Itemmenge I alle Assoziationsregeln I →

I )mit

•

−

I ⊂

I, deren Konfidenz mindestens minconf betragt.

Die wesentliche Schwierigkeit besteht in der Losung des ersten Teilproblems. Enthalt

die Menge

insgesamt n Items, so sind theoretisch 2 n Itemmengen auf ihre Haufig-

keit hin zu untersuchen, was im Allgemeinen naturlich nicht praktikabel ist. Der

in [2] vorgestellte Apriori - Algorithmus sucht geschickt nach solchen Itemmengen,

indem er sich Folgendes zunutze macht:

Alle Teilmengen einer haufigen Itemmenge sind ebenfalls haufig, und alle Obermen-

gen einer nicht haufigen Itemmenge sind ebenfalls nicht haufig.

Dies ist klar, denn fur zwei Itemmengen I 1 ,I 2

mit I 1

⊆

I 2

gilt naturlich:

support (I 2 )

support (I 1 ). Der Apriori -Algorithmus bestimmt also zunachst die

einelementigen haufigen Itemmengen und sucht in jedem weiteren Durchlauf in den

Obermengen von haufigen Itemmengen nach weiteren haufigen Itemmengen. Wer-

den keine haufigen Itemmengen mit einer bestimmten Anzahl von Elementen mehr

gefunden, so bricht der Algorithmus ab.

Abbildung 5.24 zeigt den Apriori -Algorithmus. Dabei bezeichnet L k die Menge

der haufigen k-Itemmengen. C k ist die Menge aller im AprioriGen -Algorithmus

(s. Abbildung 5.25) erzeugten Kandidatenmengen fur haufige k-Itemmengen. Deren

tatsachliche Haufigkeit wird im Apriori -Algorithmus berechnet, um aus C k die

haufigen k-Itemmengen herauszufiltern.

Wir erlautern zunachst den Ablauf des Apriori -Algorithmus. Im ersten Durch-

lauf bestimmt der Algorithmus die Menge L 1 der haufigen 1-Itemmengen, indem

er einfach zahlt, wie oft jedes Item in den Transaktionen aus

≤

vorkommt. Jede

weitere, k-te Iteration (k

≥

2) besteht aus drei Schritten: Im ersten Schritt wer-

den aus den im (k

1)-Durchlauf bestimmten haufigen Itemmengen, L k−1 , mittels

AprioriGen die Kandidaten-Itemmengen, C k , berechnet. Im zweiten Schritt (for-

Schleife in Apriori )wirdfur jede Kandidatenmenge c

−

∈

C k in dem Zahler c.count

Methoden Wissensbasierter Systeme

Search WWH ::

Custom Search

Home