Database Reference
In-Depth Information
gel (X
−
Y )
→
Y mindestens
minconf
, so gilt dies auch fur jede Regel der Form
Y
)
Y
, wobei Y
⊆
(X
Y eine Teilmenge von Y ist (s. Aufgabe 5.32). Folglich
erzeugt man aus einer haufigen Itemmenge X zunachst alle Assoziationsregeln, de-
ren Konklusion nur ein Item enthalt. Mit Hilfe des
AprioriGen
-Algorithmus werden
dann die Konklusionen elementweise erweitert: Ist H
m
eine Menge von m-Item-
Konklusionen einer haufigen Itemmenge X, so setze H
m+1
−
→
:=
AprioriGen
(H
m
).
Fur alle Konklusionen h
m+1
∈
H
m+1
uberpruft man nun die Konfidenz der Re-
gel (X
h
m+1
.Liegtsieuber der Schwelle
minconf
, so wird die Regel
ausgegeben, andernfalls wird h
m+1
aus H
m+1
entfernt (vgl. [2]).
−
h
m+1
)
→
Selbsttestaufgabe 5.32 (Assoziationsregeln)
Seien X, Y, Y
Itemmengen mit
Y
⊆
Y
⊂
X. Zeigen Sie, dass dann gilt:
Y
)
Y
)
confidence
((X
−
→
≥
confidence
((X
−
Y )
→
Y )
Bei jedem Iterationsschritt des
Apriori
-Algorithmus muss die Datenbasis
durchsucht werden, was zu einem ungunstigen Laufzeitverhalten fuhren kann. Eine
Weiterentwicklung dieses Algorithmus ist der
AprioriTid
-Algorithmus, der die Da-
tenbasis selbst nach dem ersten Durchlauf nicht mehr benotigt, allerdings mehr Spei-
cherplatz belegt. Eine Kombination aus beiden Algorithmen ist der
AprioriHybrid
-
Algorithmus, der die Vorteile beider Ansatze vereint (s. [2]).
Oftmals bieten sich in naturlicher Weise Hierarchien an, um die enorme Zahl
verschiedener Items (beispielsweise die Artikel in einem Warenhaus) zu strukturie-
ren: Eine Jeans der Marke XY
ist-eine
Jeans
ist-eine
Hose
ist-ein
Kleidungsstuck.
Interessant sind dann Assoziationsregeln, deren Items auf unterschiedlichen Stufen
dieser Hierarchie angesiedelt sind (wobei der Support einer solchen Regel mit ab-
nehmender Stufung naturlich immer besser wird):
In 40 % aller Transaktionen, bei
denen eine Hose gekauft wird, wird auch eine Bluse oder ein T-Shirt gekauft.
Solche
Assoziationsregeln werden
verallgemeinerte Assoziationsregeln
genannt; sie konnen
mit ahnlichen, erweiterten Verfahren gefunden werden (s. [223]).
Das beschriebene Vorgehen zum Au
nden von Assoziationsregeln mit vorgege-
benem Support und Konfidenz ist vollstandig, da systematisch alle haufigen Item-
mengen erzeugt und nach Regeln durchsucht werden. Ein Problem ist dabei aller-
dings die große Anzahl ausgegebener Regeln, was die Frage nach der tatsachlichen
statistischen Signifikanz
der Regeln aufwirft. Hier zeigten Megiddo und Srikant
[152], dass durch die Parameter Support und Konfidenz auch die Signifikanz der
ausgegebenen Regeln in uberzeugender Weise gesichert werden kann.
Selbsttestaufgabe 5.33 (
AprioriGen
-Algorithmus)
Betrachten Sie das Bei-
spiel 5.31 mit der Menge
L
3
:=
{{
A, B, C
}
,
{
A, B, D
}
,
{
A, C, D
}
,
{
A, C, E
}
,
{
B, C, D
}}
haufiger 3-Itemmengen. Welche Stelle im
AprioriGen
-Algorithmus verhindert, dass
{
in C
4
enthalten ist, obwohl diese Menge ja auch als vierelementige
Vereinigung zweier Mengen aus L
3
zu gewinnen ist? Warum ist es nicht notwendig,
die Menge
A, B, C, E
}
{
A, B, C, E
}
als potentielle haufige 4-Item-Menge heranzuziehen?