Information Technology Reference
In-Depth Information
Um zu große Sprünge und zu langsames Lernen zu vermeiden, ist es üblich, die
Lernrate nach oben und unten zu begrenzen. Die selbstadaptive Fehler-Rückpropa-
gation sollte außerdem nur für das Batch-Training eingesetzt werden, da das Online-
Tra ining of t ins tabi l i s t .
Elastische Fehler-Rückpropagation
Die elastische Fehler-Rückpropagation (resilient backpropagation, Rprop) [Riedmil-
ler u. Braun 1992, 1993] kann als Kombination der Ideen des Manhattan-Trainings
und der selbstadaptiven Fehler-Rückpropagation gesehen werden. Es wird eine ei-
gene
Schrittweite
w
für jeden Parameter des neuronalen Netzes, also jedes Gewicht
und jeden Biaswert, eingeführt, die in Abhängigkeit von dem aktuellen und dem
vorangehenden Gradienten nach der folgenden Regel angepasst wird:
c
·
w
(
t
1
)
,fas
w
e
(
t
) ·
w
e
(
t
1
)
<
0,
c
+
·
w
(
t
1
)
,fas
w
e
(
t
) ·
w
e
(
t
1
)
>
0
w
e
(
t
1
) ·
w
e
(
t
2
)
0,
w
(
t
1
)
,son .
w
(
t
)=
Wie bei der selbstadaptiven Fehler-Rückpropagation ist
c
ein Schrumpfungsfaktor
(0
<
c
<
1) und
c
+
ein Wachstumsfaktor (
c
+
>
1), mit denen die Schrittweite
verkleinert oder vergrößert wird. Die Anwendung dieser Faktoren wird genauso
begründet wie bei der oben besprochenen selbstadaptiven Fehler-Rückpropagation.
Auch ihre typischen Werte stimmen mit den dort angegebenen überein und zwar
c
[
0.5, 0.7
]
und
c
+
[
1.05, 1.2
]
.
Ähnlich wie der Wert der Lernrate der selbstadaptiven Fehler-Rückpropagation
wird auch der Betrag der Schrittweite nach oben und nach unten begrenzt, um zu
große Sprünge und zu langsames Lernen zu vermeiden. Außerdem sollte auch die
elastische Fehler-Rückpropagation nur für das Batch-Training eingesetzt werden, da
das Online-Training noch instabiler ist als bei der selbstadaptiven Fehler-Rückpro-
pagation.
Die elastische Fehler-Rückpropagation hat sich in verschiedenen Anwendungen
besonders in der Trainingszeit als anderen Verfahren (Momentterm, selbstadaptive
Fehler-Rückpropagation, aber auch dem unten erläuterten Quickpropagation-Ver-
fahren) deutlich überlegen gezeigt. Es gehört zu den empfehlenswertesten Lernver-
fahren für mehrschichtige Perzeptren.
Quickpropagation
Das Quickpropagation-Verfahren [Fahlman 1989] nähert die Fehlerfunktion am Ort
des aktuellen Gewichtes lokal durch eine Parabel an (siehe Abbildung 5.24) und be-
rechnet aus dem aktuellen und dem vorangehenden Gradienten den Scheitelpunkt
dieser Parabel. Der Scheitelpunkt wird dann direkt angesprungen, das Gewicht al-
so auf den Wert des Scheitelpunktes gesetzt. Verläuft die Fehlerfunktion „gutartig“,
kann man so in nur einem Schritt sehr nah an das Minimum der Fehlerfunktion her-
ankommen.