Selbstorganisierende Karten - Computational Intelligence

Information Technology Reference

In-Depth Information

zu verschiedenen Klassen) ergibt sich aus der Tatsache, dass jeder Referenzvektor r i

nur in einer der beiden Summen auftritt: Entweder sein Index i ist in I ( z j ) enthal-

ten, und dann liefert nur die erste Summe einen Beitrag, oder sein Index ist nicht in

I ( z j ) enthalten, und dann liefert nur die zweite Summe einen Beitrag. Die Nenner

der Brüche ergeben sich aus der Ableitung des natürlichen Logarithmus.

Das Ergebnis ist ein Schema für eine “weiche” lernende Vektorquantisierung [Seo

u. Obermayer 2003], wobei “weich” ausdrückt, dass alle Referenzvektoren angepaßt

werden, aber unterschiedlich stark: Alle Referenzvektoren mit der gleichen Klasse

wie der Datenpunkt werden “angezogen”, alle Referenzvektoren mit verschiedener

Klasse “abgestoßen”.

Eine “harte” lernende Vektorquantisierung kann aus diesem Schema leicht ab-

geleitet werden, indem man die den Clustern bzw. Referenzvektoren zugeordneten

Standardabweichungen bzw. Varianzen gegen Null gehen läßt. Im Grenzfall ergibt

sich eine harte Zuordnung

ij = i , k ( j ) , wob i k

( j )= argmin

l I ( z j )

d ( p j , r l ) , d

ij = i , k ( j ) , wob i k

( j )=argmin

l /

d ( p j , r l ),

I ( z j )

und i , k das Kronecker-Symbol ist ( i , k = 1, wenn i = k ,und i , k = 0sonst).Man

beachte allerdings, dass dieses Schema nicht identisch ist mit dem oben behandel-

ten Schema von Kohonen [1990, 1995]. Während in Kohonens Schema die beiden

nächsten Referenzvektoren bestimmt und nur dann angepaßt werden, wenn sie zu

verschiedenen Klassen gehören, paßt dieses Schema immer zwei Referenzvektoren

an, nämlich den nächstgelegenen unter denen, die die gleiche Klasse tragen (dieser

Ve k t o r wi rd ange z ogen ) , und den nä c hs t ge l e genen un t e r denen , d i e e i ne ande r e Kl a s -

se tragen (dieser Vektor wird abgestoßen). Man beachte, dass dies nicht die beiden

nächstgelegenen unter allen Referenzvektoren sein müssen: Obwohl einer der insge-

samt nächste sein muß, kann der andere sehr viel weiter entfernt liegen als mehrere

andere Referenzvektoren.

Ein Vorteil dieses Ansatzes ist, dass er verständlich macht, warum es manchmal

zu einem divergierenden Verhalten kommt. (Details würden hier zu weit führen —

interessierte Leser seien auf [Seo u. Obermayer 2003] verwiesen.) Aber er legt auch

eine Methode nahe, mit demman die Divergenz vermeiden kann, ohne eine Fenster-

regel einführen zu müssen. Die Idee besteht in einer geringfügigen Veränderung der

Zielfunktion zu [Seo u. Obermayer 2003]

j = 1 ln

( x j

r i )

( x j

r i )

ln L ratio =

exp

2 2

i I ( z j )

( x j

r i )

( x j

r i )

j = 1 ln i

exp

2 2

Offenbar besteht der Unterschied nur darin, dass die zweite Summe nun über alle

Referenzvektoren läuft (und nicht nur über die, die eine andere Klasse als der Daten-

Computational Intelligence

Search WWH ::

Custom Search

Home