Information Technology Reference
In-Depth Information
Das Anpassungsverfahren wird aus der Maximierung einer Zielfunktion abge-
leitet, die die Wahrscheinlichkeit einer korrekten Klassifikation eines Datenpunktes
beschreibt. D. h. es wird versucht, das sogenannte maximale LikelihoodVer-hältnis
(maximum likelihood ratio) zu erzielen. Wie wir sehen werden, ergibt sich dann die
oben betrachtete Anpassungsregel durch die Maximierung der A-posteriori-Wahr-
scheinlichkeit der korrekten Klasse (d. h. der wahren Klasse, die einem Datenpunkt
zugeordnet ist), während die Abstoßungsregel eine Folge der Minimierung der A-
posteriori-Wahrscheinlichkeit einer falschen Klasse ist [Seo u. Obermayer 2003]. For-
mal führen wir einen Gradientenabstieg auf dem maximalen Likelihood-Verhältnis
durch. Ausgehend von den oben gemachten Annahmen erhalten wir somit für das
Likelihood-Verhältnis (bzw. seinen natürlichen Logarithmus)
r
i
)
(
p
j
n
j
=
1
ln
(
p
j
r
i
)
ln
L
ratio
=
exp
2
2
i
I
(
z
j
)
n
(
p
j
r
i
)
(
p
j
r
i
)
j
=1
ln
exp
,
2
2
i
/
I
(
z
j
))
wobei
I
(
z
)
die Indizes derjenigen Refenzvektoren liefert, denen die Klasse
z
zuge-
ordnet ist. Man beachte, dass sich die Normalisierungsfaktoren, die in der üblichen
Formel für eine Normalverteilung auftreten, wegheben, da alle Cluster/Referenz-
vektoren die gleiche Standardabweichung bzw. Varianz haben. Genauso heben sich
auch die Apriori-Wahrscheinlichkeiten der verschiedenen Cluster weg, da wir ja an-
genommen haben, dass sie alle gleich sind.
Aus dieser Zielfunktion erhalten wir quasi unmittelbar als Online-Anpassungs-
regel für einen Gradientenabstieg
r
(
neu
)
i
=
r
(
alt
)
i
+
·
r
i
ln
L
ratio
|
r
(
alt
)
i
p
j
(alt)
ij
r
(alt)
u
·
, fas
z
j
=
c
i
,
r
(alt)
i
=
+
·
p
j
(
alt
)
ij
r
(
alt
)
i
i
u
·
, fas
z
j
=
c
i
,
wobei
c
i
wieder die Klasse ist, die dem
i
-ten Referenzvektor zugeordnet ist und
z
j
die Klasse des Datenpunktes
p
j
.Die“Zugehörigkeitsgrade”
u
ij
und
u
ij
,mitdenen
ein Datenpunkt
p
j
zum Cluster des Referenzvektors
r
i
gehört, sind gegeben durch
p
j
p
j
r
(alt)
r
(alt)
1
2
2
exp
i
i
(alt)
ij
u
=
und
r
(alt)
r
(alt)
k
I
(
z
j
)
1
2
2
exp
p
j
p
j
k
k
p
j
p
j
r
(alt)
r
(alt)
1
2
2
exp
i
i
(alt)
ij
u
=
.
r
(alt)
r
(alt)
k
/
1
2
2
exp
p
j
p
j
k
k
I
(
z
j
)
Die Aufteilung in die beiden Fälle
z
j
=
c
i
(die Datenpunktes stimmt mit der des Refe-
renzvektors überein) und
z
j
=
c
i
(der Referenzvektor und der Datenpunkt gehören