Information Technology Reference
In-Depth Information
Nachdem mit diesen Überlegungen das prinzipielle Vorgehen klar ist, wenden
wir uns der Ableitung der Änderungsformeln für die Gewichte und Biaswerte im
Detail zu. Um unnötige Fallunterscheidungen zu vermeiden, bezeichnen wir im fol-
genden die Menge der Neuronen der Eingabeschicht eines r -schichtigen Perzeptrons
mit U 0 , die Mengen der Neuronen der r 2verstecktenSchichtenmit U 1 bis U r 2
und die Menge der Neuronen der Ausgabeschicht (manchmal) mit U r 1 .Wirge-
hen aus vom Gesamtfehler eines mehrschichtigen Perzeptrons mit Ausgabeneuro-
nen U out bezüglich einer festen Lernaufgabe L fixed ,derdefiniertistals(vergleiche
Abschnitt 4.3)
e ( l )
e ( l ) =
v U out
l L fixed
l L fixed
e =
e v =
,
v
v U out
d. h. als Summe der Einzelfehler über alle Ausgabeneuronen v und alle Lernmuster l .
Sei nun u ein Neuron der Ausgabeschicht oder einer versteckten Schicht, also u U k ,
0 < k < r . Seine Vorgänger seien die Neuronen pred ( u )={ p 1 ,..., p n } U k 1 .Der
zugehörige (erweiterte) Gewichtsvektor sei w u =( u , w up 1 ,..., w up n ) .Manbeach-
te hier das zusätzliche Vektorelement u :WieschoninAbschnitt3.5angedeutet,
kann ein Biaswert in ein Gewicht umgewandelt werden, um alle Parameter einheit-
lich behandeln zu können (siehe Abbildung 3.18 auf Seite 26). Hier nutzen wir diese
Möglichkeit aus, um die Ableitungen einfacher schreiben zu können.
Wir berechnen jetzt den Gradienten des Gesamtfehlers bezüglich dieser Gewich-
te, um die Richtung der Gewichtsänderungen zu bestimmen, also
e
w u =
e
u
e
w up 1
e
w up n
w u e =
,
,...,
.
Da der Gesamtfehler des mehrschichtigen Perzeptrons die Summe der Einzelfehler
über die Lernmuster ist, gilt
e ( l )
w u
e
w u =
w u
e ( l ) =
l L fixed
l L fixed
w u e =
.
Wir können uns daher im folgenden, um die Rechnung zu vereinfachen, auf den
Fehler e ( l ) für ein einzelnes Lernmuster l beschränken. Dieser Fehler hängt von den
Gewichten in w u nur über die Netzeingabe net ( l ) u = w u in ( l )
mit dem (erweiterten)
u
1, out ( l )
Netzeingabevektor in ( l u =
p 1 ,...,out ( l )
ab. Wir können daher die Kettenre-
p n
gel anwenden und erhalten
net ( l )
w u e ( l ) = e ( l )
e ( l )
net ( l )
u
w u
w u =
.
u
Da net ( l u = w u in ( l )
,habenwirfürdenzweitenFaktorunmittelbar
u
net ( l )
= in ( l )
u
w u
.
u
Search WWH ::




Custom Search