Information Technology Reference
In-Depth Information
se ab wie die Ableitung des Gradienten für die Gewichte. Sie ist sogar etwas ein-
facher, da wir nicht die Netzeingabefunktion berücksichtigen müssen. Daher geben
wir hier nur das Ergebnis an:
w su out ( l )
e ( l )
v = 2
o ( l )
out ( l )
v
v
s succ( v )
.
s
s
Als Online-Gewichtsänderung erhalten wir folglich
w sv out ( l )
e ( l )
v = 2
( l v = 2
o ( l )
out ( l )
v
v
s succ( v )
.
s
s
2
Wie üblich verschwindet das Minuszeichen, da wir uns gegen die Richtung des Gra-
dienten bewegen müssen, und der Faktor 2 in die Lernrate eingerechnet wird. Für
ein Batch-Training sind natürlich wieder die Radiusänderungen über alle Lernmu-
ster zu summieren und erst anschließend dem Radius v hinzuzurechnen.
Die Ableitung der Ausgabe des Neurons v nach dem Radius v lässt sich nicht
allgemein bestimmen, da die Neuronen der versteckten Schicht verschiedene radiale
Funktionen verwenden können. Wir betrachten wieder beispielhaft die Gaußsche
Aktivierungsfunktion (und vereinfachend die Identität als Ausgabefunktion). Dann
ist
2
2
net ( l )
v
net ( l )
v
net ( l )
2
out ( l )
v
v
v
v
2 v =
2 v
=
e
e
.
v
Man beachte in den oben durchgeführten Ableitungen, dass wir nicht wie bei einem
mehrschichtigen Perzeptron eine Lernrate für alle Neuronen erhalten, sondern ins-
gesamt drei: Eine für die Gewichte der Verbindungen zu den versteckten Neuronen
( 1 ), eine zweite für die Radien der radialen Basisfunktionen ( 2 ), und eine dritte
für die Gewichte der Verbindungen zu den Ausgabeneuronen und die Biaswerte der
Ausgabeneuronen ( 3 ). Nach Empfehlungen von Zell [1996] sollten diese Lernraten
deutlich kleiner gewählt werden als die (eine) Lernrate für das Training eines mehr-
schichtigen Perzeptrons. Insbesondere die dritte Lernrate 3 sollte klein sein, da die
Gewichte der Verbindungen zu den Ausgabeneuronen und die Biaswerte der Ausga-
beneuronen einen starken Einfluss auf die durch das Radiale-Basisfunktionen-Netz
berechnete Funktion haben. Außerdem wird oft von einem Online-Training abgera-
ten, da dieses wesentlich instabiler ist als bei einem mehrschichtigen Perzeptron.
6.5 Verallgemeinerte Form
Bisher haben wir stets Abstandsfunktionen verwendet, die entweder isotrop (rich-
tungsunabhängig) sind wie der Euklidische Abstand oder bei denen die Abwei-
chung von der Isotropie durch die Koordinatenachsen festgelegt ist wie beim City-
Block- oder beim Maximumabstand (siehe Abbildung 6.1 auf Seite 80). Bilden die
Tra iningsbe i spi e l e aber „schräg“ im Eingaberaum l i egende Punktwolken, so lassen
sie sich mit derartigen Abstandsfunktionen nur schlecht erfassen. Man braucht dann
Search WWH ::




Custom Search