Radiale-Basisfunktionen-Netze - Computational Intelligence

Information Technology Reference

In-Depth Information

und Gewichtsvektoren arbeiten, um lästige Unterscheidungen zu vermeiden. Folg-

lich ist

w u e ( l u = e ( l )

o ( l )

out ( l )

in ( l )

w u = 2

woraus wir die Online-Anpassungsregel

w ( l u = 3

w u e ( l u = 3

o ( l )

out ( l )

in ( l )

für die Gewichte (und damit implizit auch den Biaswert u )erhalten.Manbeachte,

dass das Minuszeichen des Gradienten verschwindet, da wir ja „im Fehlergebirge

absteigen“ wollen und uns deshalb gegen die Richtung des Gradienten bewegen

müssen. Der Faktor 2 wird in die Lernrate 3 eingerechnet. (Der Index 3 dieser Lern-

rate deutet bereits an, dass noch zwei weitere Lernraten auftreten werden.) Für das

Batch-Training sind, wie üblich, die Gewichtsänderungen w u über alle Lernmuster

zu summieren und erst dann den Gewichten hinzuzurechnen.

Die Ableitung der Anpassungsregeln für die Gewichte der Verbindungen der

Eingabeneuronen zu den versteckten Neuronen sowie der Radien der radialen Ba-

sisfunktionen ist ähnlich zur Ableitung der Fehler-Rückpropagation in Abschnitt 5.5.

Wir müssen lediglich die besondere Netzeingabe- und Aktivierungsfunktion der ver-

steckten Neuronen berücksichtigen. Dies führt aber z. B. dazu, dass wir nicht mehr

mit erweiterten Gewichts- und Eingabevektoren arbeiten können, sondern die Ge-

wichte (d. h., die Zentren der radialen Basisfunktionen) und den Radius getrennt

betrachten müssen. Der Klarheit wegen geben wir daher hier die vollständige Ablei-

tung an.

Wir gehen von demGesamtfehler eines Radiale-Basisfunktionen-Netzes mit Aus-

gabeneuronen U out bezüglich einer festen Lernaufgabe L fixed aus:

e ( l )

e ( l ) =

u U out

l L fixed

e =

e u =

u U out

Sei v ein Neuron der versteckten Schicht. Seine Vorgänger (Eingabeneuronen) seien

die Neuronen pred ( v )={ p U in | ( p , v ) C } = { p 1 ,..., p n } .Derzugehörige

Gewichtsvektor sei w v =( w vp 1 ,..., w vp n ),derzugehörigeRadius v .Wirberech-

nen zunächst den Gradienten des Gesamtfehlers bezüglich der Verbindungsgewich-

te (Zentrumskoordinaten):

w v =

w vp 1

w vp n

w v e =

,...,

Da der Gesamtfehler als Summe über alle Lernmuster berechnet wird, gilt

e ( l )

w v

w v =

w v

l L fixed

e ( l ) =

l L fixed

Wir können uns daher im folgenden, analog zu Abschnitt 5.5, auf den Fehler e ( l )

für ein einzelnes Lernmuster l beschränken. Dieser Fehler hängt von den Gewichten

in w v nur über die Netzeingabe net ( l ) v = d

w v , in ( l )

mit dem Netzeingabevektor

Computational Intelligence

Search WWH ::

Custom Search

Home