Database Reference
In-Depth Information
nicht notwendig kausaler Natur, und beruhen auf Beobachtungen. Es wird jedoch
unterstellt, dass sich in ihnen implizite strukturelle Abhangigkeiten manifestieren.
Der typische Anwendungsbereich fur Assoziationsregeln ist die Verkaufsdatenana-
lyse, sie konnen jedoch auch z. B. zur Diagnose genutzt werden (im medizinischen
Bereich reprasentieren sie beispielsweise Zusammenhange zwischen Symptomen und
Krankheiten) und kommen allgemein bei der Entscheidungsunterstutzung zur Gel-
tung.
Die (konkreten oder abstrakten) Dinge, deren Beziehungen zueinander be-
schrieben werden sollen, heißen
Items
.Sei
I
=
{
i
1
,i
2
,...
}
eine (endliche) Men-
ge solcher Items. Eine beliebige Teilmenge X
⊆I
wird
Itemmenge
genannt. Eine
k-Itemmenge
ist eine Itemmenge mit k Elementen.
Eine
Transaktion
t
⊆I
ist eine Itemmenge. Die Datenbasis
D
=
{
t
1
,t
2
,...
}
bestehe aus einer Menge solcher Transaktionen. Der
Support
einer Itemmenge X
ist der (relative) Anteil aller Transaktionen aus
D
,dieX enthalten:
support
(X)=
|{
t
∈D|
X
⊆
t
}|
|D|
Beispiel 5.30
Bei der Verkaufsdatenanalyse eines Supermarktes sind Items typi-
scherweise die Artikel aus dem Sortiment des Marktes, und die Transaktionen ent-
sprechen den dort getatigten Einkaufen von Kunden. Die Datenbasis
besteht
dann aus allen Verkaufstransaktionen innerhalb eines bestimmten Zeitraums. Der
Support der Itemmenge
D
beispielsweise kann 0.40 betragen, d. h. 40 % aller
Kunden kaufen bei ihrem Einkauf auch Milch ein.
{
Milch
}
Eine
Assoziationsregel
hat die Form
X
→
Y
wobei X und Y disjunkte Itemmengen sind mit X, Y
⊆I
und X
∩
Y =
∅
.Man
sagt, eine Transaktion t
erfullt
eine solche Regel X
→
Y ,wennX
∪
Y
⊆
t,wenn
also t alle in der Regel vorkommenden Items enthalt.
Zwei wichtige einer Assoziationsregel zugeordnete Großen sind
Support
und
Konfidenz
.Der
Support von
X
→
Y ist der Support der Itemmenge X
∪
Y :
support
(X
→
Y )=
support
(X
∪
Y )
Die
Konfidenz von
X
Y ist der (relative) Anteil derjenigen X enthaltenden
Transaktionen, die auch Y enthalten:
→
Y )=
|{
t
∈D|
(X
∪
Y )
⊆
t
}|
confidence
(X
→
|{
t
∈D|
X
⊆
t
}|
support
(X
Y )
support
(X)
→
=
Support und Konfidenz (s. auch [20]) sind also nichts anderes als (bedingte) relative
Haufigkeiten bzw. (bedingte) Wahrscheinlichkeiten (vgl. Abschnitt A.3 im Anhang).