Mehrschichtige Perzeptren - Computational Intelligence

Information Technology Reference

In-Depth Information

Nachdem mit diesen Überlegungen das prinzipielle Vorgehen klar ist, wenden

wir uns der Ableitung der Änderungsformeln für die Gewichte und Biaswerte im

Detail zu. Um unnötige Fallunterscheidungen zu vermeiden, bezeichnen wir im fol-

genden die Menge der Neuronen der Eingabeschicht eines r -schichtigen Perzeptrons

mit U 0 , die Mengen der Neuronen der r 2verstecktenSchichtenmit U 1 bis U r 2

und die Menge der Neuronen der Ausgabeschicht (manchmal) mit U r 1 .Wirge-

hen aus vom Gesamtfehler eines mehrschichtigen Perzeptrons mit Ausgabeneuro-

nen U out bezüglich einer festen Lernaufgabe L fixed ,derdefiniertistals(vergleiche

Abschnitt 4.3)

e ( l )

e ( l ) =

v U out

l L fixed

e =

e v =

v U out

d. h. als Summe der Einzelfehler über alle Ausgabeneuronen v und alle Lernmuster l .

Sei nun u ein Neuron der Ausgabeschicht oder einer versteckten Schicht, also u U k ,

0 < k < r . Seine Vorgänger seien die Neuronen pred ( u )={ p 1 ,..., p n } U k 1 .Der

zugehörige (erweiterte) Gewichtsvektor sei w u =( u , w up 1 ,..., w up n ) .Manbeach-

te hier das zusätzliche Vektorelement u :WieschoninAbschnitt3.5angedeutet,

kann ein Biaswert in ein Gewicht umgewandelt werden, um alle Parameter einheit-

lich behandeln zu können (siehe Abbildung 3.18 auf Seite 26). Hier nutzen wir diese

Möglichkeit aus, um die Ableitungen einfacher schreiben zu können.

Wir berechnen jetzt den Gradienten des Gesamtfehlers bezüglich dieser Gewich-

te, um die Richtung der Gewichtsänderungen zu bestimmen, also

w u =

w up 1

w up n

w u e =

,...,

Da der Gesamtfehler des mehrschichtigen Perzeptrons die Summe der Einzelfehler

über die Lernmuster ist, gilt

e ( l )

w u

w u =

w u

e ( l ) =

l L fixed

w u e =

Wir können uns daher im folgenden, um die Rechnung zu vereinfachen, auf den

Fehler e ( l ) für ein einzelnes Lernmuster l beschränken. Dieser Fehler hängt von den

Gewichten in w u nur über die Netzeingabe net ( l ) u = w u in ( l )

mit dem (erweiterten)

1, out ( l )

Netzeingabevektor in ( l u =

p 1 ,...,out ( l )

ab. Wir können daher die Kettenre-

p n

gel anwenden und erhalten

net ( l )

w u e ( l ) = e ( l )

e ( l )

net ( l )

w u

w u =

Da net ( l u = w u in ( l )

,habenwirfürdenzweitenFaktorunmittelbar

net ( l )

= in ( l )

w u

Computational Intelligence

Search WWH ::

Custom Search

Home