Information Technology Reference
In-Depth Information
Grippe
g
g
g
g
g
g
g
g
Malaria
m m m m m m m m
Fieber
f
f
f
f
f
f
f
f
#
34
6
2
8
16
24
0
10
Tabe l l e 26 . 1 : E i ne Be i sp i e lda t enba s i s mi t 100 Da t ensä t zen
Im ersten Teil dieses Beispiel nehmen wir an, die Netzstruktur
B
S
bestehe aus
einem kantenlosen Graphen, d. h. wir haben es mit drei marginal unabhängigen At-
tributen zu tun. Die „Zerlegung“ der Verbundverteilung lautet dann:
P
(G =
g
, M =
m
, F =
f
)=
P
(G =
g
)
P
(M =
m
)
P
(F =
f
)
wobei
g
{
g, g
}
,
m
{
m, m
}
,
f
{
f, f
}
Folglich sind die Verteilungen
P
(G),
P
(M) und
P
(F) aus den Daten zu schätzen.
2
#
(
G
=
g
)
|
D
|
P
(
G
=
g
)
P
(
G
=
g
)=
Mit der gegebenen Beispielrelation aus Tabelle 26.1 erhalten wir:
P
(
G
=
g
)=
50
/
100
=
0.50
P
(
G
=
g
)=
1
P
(
G
=
g
)=
0.50
P
(
M
=
m
)=
20
/
100
=
0.20
P
(
M
=
m
)=
1
P
(
M
=
m
)=
0.80
P
(
F
=
f
)=
50
/
100
=
0.48
P
(
F
=
f
)=
1
P
(
F
=
f
)=
0.52
Im zweiten Teil bestehe die Netzstruktur
B
S
aus dem Graphen, der in Abbil-
dung 26.1 zu sehen ist. Die Zerlegung lautet:
P
(G =
g
, M =
m
, F =
f
)=
P
(G =
g
)
P
(M =
m
)
P
(F =
f
| G =
g
, M =
m
)
Die Schätzungen für
P
(
G
)
und
P
(
M
)
erfolgen analog denen aus dem vorangegange-
nen Teil des Beispiels, während man für die Berechnung der bedingten Wahrschein-
lichkeitsverteilungen
P
(F | G, M) folgendermaßen ansetzt:
#(
g
,
m
,
f
)
|
D
|
#
(
g
,
m
)
|
D
|
P
(
f
,
g
,
m
)
=
#
(
g
,
m
,
f
)
#(
g
,
m
)
P
(
f
|
g
,
m
)=
=
P
(
g
,
m
)
2
Der Ausdruck #
(
X
=
x
)
bzw. #
(
x
)
steht für die Anzahl der Tupel (Datensätze) in
D
,diefürdas
Attribut
X
die Ausprägung
x
aufweisen: #
(
X
=
x
)=
#
(
x
)
De
= |{
t
D
|
t
(
X
)=
x
}| = |{
X
=
x
}|