Information Technology Reference
In-Depth Information
Das Anpassungsverfahren wird aus der Maximierung einer Zielfunktion abge-
leitet, die die Wahrscheinlichkeit einer korrekten Klassifikation eines Datenpunktes
beschreibt. D. h. es wird versucht, das sogenannte maximale LikelihoodVer-hältnis
(maximum likelihood ratio) zu erzielen. Wie wir sehen werden, ergibt sich dann die
oben betrachtete Anpassungsregel durch die Maximierung der A-posteriori-Wahr-
scheinlichkeit der korrekten Klasse (d. h. der wahren Klasse, die einem Datenpunkt
zugeordnet ist), während die Abstoßungsregel eine Folge der Minimierung der A-
posteriori-Wahrscheinlichkeit einer falschen Klasse ist [Seo u. Obermayer 2003]. For-
mal führen wir einen Gradientenabstieg auf dem maximalen Likelihood-Verhältnis
durch. Ausgehend von den oben gemachten Annahmen erhalten wir somit für das
Likelihood-Verhältnis (bzw. seinen natürlichen Logarithmus)
r i ) ( p j
n
j = 1 ln
( p j
r i )
ln L ratio =
exp
2 2
i I ( z j )
n
( p j
r i )
( p j
r i )
j =1 ln
exp
,
2 2
i /
I ( z j ))
wobei I ( z ) die Indizes derjenigen Refenzvektoren liefert, denen die Klasse z zuge-
ordnet ist. Man beachte, dass sich die Normalisierungsfaktoren, die in der üblichen
Formel für eine Normalverteilung auftreten, wegheben, da alle Cluster/Referenz-
vektoren die gleiche Standardabweichung bzw. Varianz haben. Genauso heben sich
auch die Apriori-Wahrscheinlichkeiten der verschiedenen Cluster weg, da wir ja an-
genommen haben, dass sie alle gleich sind.
Aus dieser Zielfunktion erhalten wir quasi unmittelbar als Online-Anpassungs-
regel für einen Gradientenabstieg
r ( neu )
i
= r ( alt )
i
+ ·
r i ln L ratio |
r ( alt )
i
p j
(alt)
ij
r (alt)
u
·
, fas z j = c i ,
r (alt)
i
=
+ ·
p j
( alt )
ij
r ( alt )
i
i
u
·
, fas z j
= c i ,
wobei c i wieder die Klasse ist, die dem i -ten Referenzvektor zugeordnet ist und z j
die Klasse des Datenpunktes p j .Die“Zugehörigkeitsgrade” u
ij und u
ij ,mitdenen
ein Datenpunkt p j zum Cluster des Referenzvektors r i gehört, sind gegeben durch
p j
p j
r (alt)
r (alt)
1
2 2
exp
i
i
(alt)
ij
u
=
und
r (alt)
r (alt)
k I ( z j )
1
2 2
exp
p j
p j
k
k
p j
p j
r (alt)
r (alt)
1
2 2
exp
i
i
(alt)
ij
u
=
.
r (alt)
r (alt)
k /
1
2 2
exp
p j
p j
k
k
I ( z j )
Die Aufteilung in die beiden Fälle z j = c i (die Datenpunktes stimmt mit der des Refe-
renzvektors überein) und z j
= c i
(der Referenzvektor und der Datenpunkt gehören
Search WWH ::




Custom Search