Information Technology Reference
In-Depth Information
Zur Berechnung des ersten Faktors betrachten wir den Fehler e ( l ) für das Lernmuster
l =
ı ( l ) , o ( l )
.DieserFehlerist
2
e ( l u =
v U out
o ( l )
out ( l )
e ( l ) =
v U out
,
v
v
also die Fehlersumme über alle Ausgabeneuronen. Folglich haben wir
2
2
o ( l )
out ( l )
o ( l )
out ( l )
v U out
e ( l )
net ( l )
v
v
v
v
=
v U out
=
.
net ( l )
net ( l )
u
u
u
Da nur die tatsächliche Ausgabe out ( l )
eines Ausgabeneurons v von der Netzeinga-
v
be net ( l )
des von uns betrachteten Neurons u abhängt, ist
u
out ( l )
e ( l )
net ( l )
o ( l )
out ( l )
v
net ( l )
= 2
v U out
,
v
v
u
u
( l )
u
womit wir auch gleich für die hier auftretende Summe, die im folgenden eine wich-
tige Rolle spielt, die Abkürzung ( l u einführen.
Zur Bestimmung der Summen ( l u müssen wir zwei Fälle unterscheiden. Wenn u
ein Ausgabeneuron ist, können wir den Ausdruck für ( l u stark vereinfachen, denn
die Ausgaben aller anderen Ausgabeneuronen sind ja von der Netzeingabe des Neu-
rons u unabhängig. Folglich verschwinden alle Terme der Summe außer dem mit
v = u .Wirhabendaher
out ( l )
( l u =
o ( l )
out ( l )
u
net ( l )
u U out :
u
u
u
Folglich ist der Gradient
w u e ( l u = e ( l )
out ( l )
o ( l )
out ( l )
in ( l )
u
u
net ( l )
u U out :
w u = 2
u
u
u
u
und damit die allgemeine Gewichtsänderung
out ( l )
w ( l u =
w u e ( l u =
o ( l )
out ( l )
in ( l )
u
net ( l )
2
u U out
:
.
u
u
u
u
Das Minuszeichen wird aufgehoben, da ja der Fehler minimiert werden soll, wir
uns also entgegen der Richtung des Gradienten bewegen müssen, weil dieser die
Richtung der stärksten Steigung der Fehlerfunktion angibt. Der konstante Faktor 2
wird in die Lernrate eingerechnet. 7 Ein typischer Wert für die Lernrate ist = 0.2.
7 Um diesen Faktor von vornherein zu vermeiden, setzt man manchmal als Fehler eines Ausgabeneu-
rons e ( l u = 2
o ( l )
u
out ( l )
2 an. Der Faktor 2 kürzt sich dann weg.
u
Search WWH ::




Custom Search