Information Technology Reference
In-Depth Information
Grippe
g
g
g
g
g
g
g
g
Malaria
m m m m m m m m
Fieber
f
f
f
f
f
f
f
f
#
34
6
2
8
16
24
0
10
Tabe l l e 26 . 1 : E i ne Be i sp i e lda t enba s i s mi t 100 Da t ensä t zen
Im ersten Teil dieses Beispiel nehmen wir an, die Netzstruktur B S bestehe aus
einem kantenlosen Graphen, d. h. wir haben es mit drei marginal unabhängigen At-
tributen zu tun. Die „Zerlegung“ der Verbundverteilung lautet dann:
P (G = g , M = m , F = f )= P (G = g ) P (M = m ) P (F = f )
wobei
g { g, g } , m { m, m } , f { f, f }
Folglich sind die Verteilungen P (G), P (M) und P (F) aus den Daten zu schätzen. 2
# ( G = g )
| D |
P ( G = g )
P ( G = g )=
Mit der gegebenen Beispielrelation aus Tabelle 26.1 erhalten wir:
P ( G = g )= 50 / 100 = 0.50
P ( G = g )= 1
P ( G = g )= 0.50
P ( M = m )= 20 / 100 = 0.20
P ( M = m )= 1
P ( M = m )= 0.80
P ( F = f )= 50 / 100 = 0.48
P ( F = f )= 1
P ( F = f )= 0.52
Im zweiten Teil bestehe die Netzstruktur B S aus dem Graphen, der in Abbil-
dung 26.1 zu sehen ist. Die Zerlegung lautet:
P (G = g , M = m , F = f )= P (G = g ) P (M = m ) P (F = f
| G = g , M = m )
Die Schätzungen für P ( G ) und P ( M ) erfolgen analog denen aus dem vorangegange-
nen Teil des Beispiels, während man für die Berechnung der bedingten Wahrschein-
lichkeitsverteilungen P (F | G, M) folgendermaßen ansetzt:
#( g , m , f )
| D |
# ( g , m )
| D |
P ( f , g , m )
= # ( g , m , f )
#( g , m )
P ( f
| g , m )=
=
P ( g , m )
2 Der Ausdruck # ( X = x ) bzw. # ( x ) steht für die Anzahl der Tupel (Datensätze) in D ,diefürdas
Attribut X die Ausprägung x aufweisen: # ( X = x )= # ( x ) De = |{ t D | t ( X )= x }| = |{ X = x }|
Search WWH ::




Custom Search