Information Technology Reference
In-Depth Information
zu verschiedenen Klassen) ergibt sich aus der Tatsache, dass jeder Referenzvektor r i
nur in einer der beiden Summen auftritt: Entweder sein Index i ist in I ( z j ) enthal-
ten, und dann liefert nur die erste Summe einen Beitrag, oder sein Index ist nicht in
I ( z j ) enthalten, und dann liefert nur die zweite Summe einen Beitrag. Die Nenner
der Brüche ergeben sich aus der Ableitung des natürlichen Logarithmus.
Das Ergebnis ist ein Schema für eine “weiche” lernende Vektorquantisierung [Seo
u. Obermayer 2003], wobei “weich” ausdrückt, dass alle Referenzvektoren angepaßt
werden, aber unterschiedlich stark: Alle Referenzvektoren mit der gleichen Klasse
wie der Datenpunkt werden “angezogen”, alle Referenzvektoren mit verschiedener
Klasse “abgestoßen”.
Eine “harte” lernende Vektorquantisierung kann aus diesem Schema leicht ab-
geleitet werden, indem man die den Clustern bzw. Referenzvektoren zugeordneten
Standardabweichungen bzw. Varianzen gegen Null gehen läßt. Im Grenzfall ergibt
sich eine harte Zuordnung
u
ij = i , k ( j ) , wob i k
( j )= argmin
l I ( z j )
d ( p j , r l ) , d
ij = i , k ( j ) , wob i k
( j )=argmin
l /
d ( p j , r l ),
u
I ( z j )
und i , k das Kronecker-Symbol ist ( i , k = 1, wenn i = k ,und i , k = 0sonst).Man
beachte allerdings, dass dieses Schema nicht identisch ist mit dem oben behandel-
ten Schema von Kohonen [1990, 1995]. Während in Kohonens Schema die beiden
nächsten Referenzvektoren bestimmt und nur dann angepaßt werden, wenn sie zu
verschiedenen Klassen gehören, paßt dieses Schema immer zwei Referenzvektoren
an, nämlich den nächstgelegenen unter denen, die die gleiche Klasse tragen (dieser
Ve k t o r wi rd ange z ogen ) , und den nä c hs t ge l e genen un t e r denen , d i e e i ne ande r e Kl a s -
se tragen (dieser Vektor wird abgestoßen). Man beachte, dass dies nicht die beiden
nächstgelegenen unter allen Referenzvektoren sein müssen: Obwohl einer der insge-
samt nächste sein muß, kann der andere sehr viel weiter entfernt liegen als mehrere
andere Referenzvektoren.
Ein Vorteil dieses Ansatzes ist, dass er verständlich macht, warum es manchmal
zu einem divergierenden Verhalten kommt. (Details würden hier zu weit führen —
interessierte Leser seien auf [Seo u. Obermayer 2003] verwiesen.) Aber er legt auch
eine Methode nahe, mit demman die Divergenz vermeiden kann, ohne eine Fenster-
regel einführen zu müssen. Die Idee besteht in einer geringfügigen Veränderung der
Zielfunktion zu [Seo u. Obermayer 2003]
n
j = 1 ln
( x j
r i )
( x j
r i )
ln L ratio =
exp
2 2
i I ( z j )
n
( x j
r i )
( x j
r i )
j = 1 ln i
exp
.
2 2
Offenbar besteht der Unterschied nur darin, dass die zweite Summe nun über alle
Referenzvektoren läuft (und nicht nur über die, die eine andere Klasse als der Daten-
Search WWH ::




Custom Search