Information Technology Reference
In-Depth Information
Man beachte allerdings, dass dies nur die Änderung der Gewichte ist, die sich für
ein einzelnes Lernmuster
l
ergibt, da wir amAnfang die Summe über die Lernmuster
vernachlässigt haben. Dies ist also, anders ausgedrückt, die Änderungsformel für
das
Online-Training
,beidemdieGewichtenachjedemLernmusterangepasstwer-
den (vergleiche Seite 23f und Algorithmus 3.2 auf Seite 26). Für das
Batch-Training
müssen die Änderungen, die durch die obige Formel beschrieben werden, über al-
le Lernmuster aufsummiert werden (vergleiche Seite 23f und Algorithmus 3.3 auf
Seite 27f). Die Gewichte werden in diesem Fall erst am Ende einer (Lern-/Trainings-
)Epoche, also nach dem Durchlaufen aller Lernmuster, angepasst.
In der obigen Formel für die Gewichtsänderung kann die Ableitung der Aus-
gabe out
(
l
)
u
nach der Netzeingabe net
(
l
u
nicht allgemein bestimmt werden, da die
Ausgabe aus der Netzeingabe über die Ausgabefunktion
f
out
und die Aktivierungs-
funktion
f
act
des Neurons
u
berechnet wird. D. h., es gilt
out
(
l
u
=
f
out
act
(
l
)
net
(
l
)
=
f
out
f
act
.
u
u
Für diese Funktionen gibt es aber verschiedene Wahlmöglichkeiten.
Wir nehmen hier vereinfachend an, dass die Aktivierungsfunktion keine Parame-
ter erhält
8
,alsoz.B.dielogistischeFunktionist.WeiterwollenwirderEinfachheit
halber annehmen, dass die Ausgabefunktion
f
out
die Identität ist und wir sie daher
vernachlässigen können. Dann erhalten wir
out
(
l
)
=
act
(
l
)
net
(
l
)
u
net
(
l
)
u
net
(
l
)
=
f
,
act
u
u
u
wobei der Ableitungsstrich die Ableitung nach dem Argument net
(
l
)
bedeutet. Spe-
u
ziell für die logistische Aktivierungsfunktion, d. h. für
1
1
+
e
x
,
f
act
(
x
)=
gilt die Beziehung
1
+
e
x
d
d
x
1
2
f
1
+
e
x
e
x
act
(
x
)=
=
1
+
e
x
1
(
1
+
e
x
)
2
=
1
1 +
e
x
1
1 +
e
x
=
1
=
f
act
(
x
) · (
1
f
act
(
x
))
,
also (da wir als Ausgabefunktion die Identität annehmen)
net
(
l
)
net
(
l
)
net
(
l
)
=
out
(
l
)
1
out
(
l
)
f
act
=
f
act
·
1
f
act
.
u
u
u
u
u
Wir haben damit als vorzunehmende Gewichtsänderung
w
(
l
u
=
o
(
l
)
out
(
l
)
out
(
l
)
1
out
(
l
)
in
(
l
)
,
u
u
u
u
u
was die Berechnungen besonders einfach macht.
8
Man beachte, dass der Biaswert
u
im erweiterten Gewichtsvektor enthalten ist.