Information Technology Reference
In-Depth Information
und Gewichtsvektoren arbeiten, um lästige Unterscheidungen zu vermeiden. Folg-
lich ist
w u e ( l u = e ( l )
o ( l )
out ( l )
in ( l )
u
w u = 2
,
u
u
u
woraus wir die Online-Anpassungsregel
w ( l u = 3
w u e ( l u = 3
o ( l )
out ( l )
in ( l )
2
u
u
u
für die Gewichte (und damit implizit auch den Biaswert u )erhalten.Manbeachte,
dass das Minuszeichen des Gradienten verschwindet, da wir ja „im Fehlergebirge
absteigen“ wollen und uns deshalb gegen die Richtung des Gradienten bewegen
müssen. Der Faktor 2 wird in die Lernrate 3 eingerechnet. (Der Index 3 dieser Lern-
rate deutet bereits an, dass noch zwei weitere Lernraten auftreten werden.) Für das
Batch-Training sind, wie üblich, die Gewichtsänderungen w u über alle Lernmuster
zu summieren und erst dann den Gewichten hinzuzurechnen.
Die Ableitung der Anpassungsregeln für die Gewichte der Verbindungen der
Eingabeneuronen zu den versteckten Neuronen sowie der Radien der radialen Ba-
sisfunktionen ist ähnlich zur Ableitung der Fehler-Rückpropagation in Abschnitt 5.5.
Wir müssen lediglich die besondere Netzeingabe- und Aktivierungsfunktion der ver-
steckten Neuronen berücksichtigen. Dies führt aber z. B. dazu, dass wir nicht mehr
mit erweiterten Gewichts- und Eingabevektoren arbeiten können, sondern die Ge-
wichte (d. h., die Zentren der radialen Basisfunktionen) und den Radius getrennt
betrachten müssen. Der Klarheit wegen geben wir daher hier die vollständige Ablei-
tung an.
Wir gehen von demGesamtfehler eines Radiale-Basisfunktionen-Netzes mit Aus-
gabeneuronen U out bezüglich einer festen Lernaufgabe L fixed aus:
e ( l )
e ( l ) =
u U out
l L fixed
l L fixed
e =
e u =
.
u
u U out
Sei v ein Neuron der versteckten Schicht. Seine Vorgänger (Eingabeneuronen) seien
die Neuronen pred ( v )={ p U in | ( p , v ) C } = { p 1 ,..., p n } .Derzugehörige
Gewichtsvektor sei w v =( w vp 1 ,..., w vp n ),derzugehörigeRadius v .Wirberech-
nen zunächst den Gradienten des Gesamtfehlers bezüglich der Verbindungsgewich-
te (Zentrumskoordinaten):
e
w v =
e
w vp 1
e
w vp n
w v e =
,...,
.
Da der Gesamtfehler als Summe über alle Lernmuster berechnet wird, gilt
e ( l )
w v
e
w v =
w v
l L fixed
e ( l ) =
l L fixed
.
Wir können uns daher im folgenden, analog zu Abschnitt 5.5, auf den Fehler e ( l )
für ein einzelnes Lernmuster l beschränken. Dieser Fehler hängt von den Gewichten
in w v nur über die Netzeingabe net ( l ) v = d
w v , in ( l )
mit dem Netzeingabevektor
v
Search WWH ::




Custom Search