Information Technology Reference
In-Depth Information
Konkret erhalten wir für
P
(
F
|
G, M
)
die folgenden bedingten Verteilungen aus den
Beispieldaten:
1
/
100
24
/
100
P
(
F
=
f
|
G
=
g, M
=
m
)=
1
/
100
=
1.0
P
(
F
=
f
|
G
=
g, M
=
m
)=
40
/
100
=
0.60
6
/
100
40
/
100
=
0.15
Mit Hilfe der Beispieldaten
D
, einer potentiellen Netzstruktur
B
S
und der aus
diesen beiden Teilen wie eben gezeigt geschätzten Netzparameter
B
P
lässt sich mit
den folgenden drei Annahmen die Wahrscheinlichkeit der Daten
P
(
D
|
B
S
,
B
P
)
be-
rechnen.
8
/
100
10
/
100
=
0.80
P
(
F
=
f
|
G
=
g, M
=
m
)=
P
(
F
=
f
|
G
=
g, M
=
m
)=
1. Der Daten generierende Prozess lässt sich exakt mit dem Bayes-Netz (
B
S
,
B
P
)
beschreiben.
2. Die einzelnen Datensätze (Tupel) treten unabhängig voneinander auf.
3. Alle Datensätze sind vollständig, d. h. es gibt keine
missing values
.
Annahme 1 legitimiert die Suche nach einem Bayes-Netz als Modell, da bei Ver-
letzung dieser Annahme eine Modellsuche keinen Erfolg haben würde. Annahme 2
besagt, dass das Auftreten eines Datensatzes nichts an der Wahrscheinlichkeit eines
anderenDatensatzes ändert. Sie ist nicht zu verwechselnmit der Aussage, alle Daten-
sätze wären gleichwahrscheinlich. Annahme 3 schließlich erlaubt uns, die problem-
lose Anwendung der obigen Auszählungen, weil wir keine fehlenden Attributwerte
zu berücksichtigen brauchen.
Die Wahrscheinlichkeit der Datenbasis
D
lässt sich nun wie folgt berechnen:
100
h
=1
P
(
c
h
|
B
S
,
B
P
)
P
(
D
|
B
S
,
B
P
)=
Fall 67
P
(g, m, f) ···
Fall 100
P
(g, m, f)
Fall 1
P
(g, m, f) ···
Fall 10
P
(g, m, f)
Fall 51
P
(g, m, f) ···
Fall 58
P
(g, m, f)
=
···
···
10-mal
8-mal
34-mal
P
(g, m, f)
10
P
(g, m, f)
8
P
(g, m, f)
34
=
···
···
|
g, m
)
10
P
(
g
)
10
P
(
m
)
10
|
g, m
)
8
P
(
g
)
8
P
(
m
)
8
|
g, m
)
34
P
(
g
)
34
P
(
m
)
34
=
P
(
f
···
P
(
f
···
P
(
f
| g, m)
10
P
(f
| g, m)
0
P
(f
| g, m)
24
P
(f
| g, m)
16
=
P
(f
| g, m)
8
P
(f
| g, m)
2
P
(f
| g, m)
6
P
(f | g, m)
34
·
P
(g)
50
P
(g)
50
P
(m)
20
P
(m)
80
·
P
(f
Die letzte Gleichung zeigt das Prinzip für die Umsortierung der einzelnen
Faktoren: Zuerst wird nach Attributen sortiert (im Beispiel F, G dann M). Innerhalb