Information Technology Reference
In-Depth Information
Der zusätzliche Term w ( t 1 ) wird Momentterm genannt, da seine Wirkung
dem Impuls (engl. momentum )entspricht,deneineKugelgewinnt,dieeineabschüs-
sige Fläche hinunterrollt. Je länger die Kugel in die gleiche Richtung rollt, umso
schneller wird sie. Sie bewegt sich daher tendenziell in der alten Bewegungsrich-
tung weiter (Momentterm), folgt aber dennoch (wenn auch verzögert) der Form der
Fläche (Gradiententerm).
Durch Einführen eines Momentterms kann das Lernen in Gebieten des Parame-
terraums, in denen die Fehlerfunktion flach verläuft, aber in eine einheitliche Rich-
tung fällt, beschleunigt werden. Auch wird das Problemder Wahl der Lernrate etwas
gemindert, da der Momentterm je nach Verlauf der Fehlerfunktion die Schrittweite
vergrößert oder verkleinert. Der Momentterm kann jedoch eine zu kleine Lernrate
nicht völlig ausgleichen, da die Schrittweite | w | bei konstantem Gradienten w e
durch s =
w e
2(1 )
beschränkt bleibt. Auch kann es bei einer zu großen Lernrate
immer noch zu Oszillationen und chaotischem Hin- und Herspringen kommen.
Selbstadaptive Fehler-Rückpropagation
Bei der selbstadaptiven Fehler-Rückpropagation (super self-adaptive backpropaga-
tion, SuperSAB) [Jakobs 1988, Tollenaere 1990] wird für jeden Parameter eines neu-
ronalen Netzes, also jedes Gewicht und jeden Biaswert, eine eigene Lernrate w ein-
geführt. Diese Lernraten werden vor ihrer Verwendung im jeweiligen Schritt in Ab-
hängigkeit von dem aktuellen und dem vorangehenden Gradienten gemäß der fol-
genden Regel angepasst:
c · w ( t 1 ) ,fas w e ( t ) · w e ( t 1 ) < 0,
c + · w ( t 1 ) ,fas w e ( t ) · w e ( t 1 ) > 0
w e ( t 1 ) · w e ( t 2 ) 0,
w ( t 1 ) ,son .
c ist ein Schrumpfungsfaktor (0 < c
w ( t )=
< 1), mit dem die Lernrate verkleinert wird,
wenn der aktuelle und der vorangehende Gradient verschiedene Vorzeichen haben.
Denn in diesem Fall wurde das Minimum der Fehlerfunktion übersprungen, und es
sind daher kleinere Schritte notwendig, um es zu erreichen. Typischerweise wird c
zwischen 0.5 und 0.7 gewählt.
c + ist einWachstumsfaktor ( c + > 1), mit demdie Lernrate vergrößert wird, wenn
der aktuelle und der vorangehende Gradient das gleiche Vorzeichen haben. In die-
sem Fall werden zwei Schritte in die gleiche Richtung gemacht, und es ist daher
plausibel anzunehmen, dass ein längeres Gefälle der Fehlerfunktion abzulaufen ist.
Die Lernrate sollte daher vergrößert werden, um dieses Gefälle schneller herabzu-
laufen. Typischerweise wird c + zwischen 1.05 und 1.2 gewählt, so dass die Lernrate
nur langsam wächst.
Die zweite Bedingung für die Anwendung des Wachstumsfaktors c + soll ver-
hindern, dass die Lernrate nach einer Verkleinerung unmittelbar wieder vergrößert
wird. Dies wird üblicherweise so implementiert, dass nach einer Verkleinerung der
Lernrate der alte Gradient auf 0 gesetzt wird, um anzuzeigen, dass eine Verkleine-
rung vorgenommen wurde. Zwar wird so auch eine erneute Verkleinerung unter-
drückt, doch spart man sich die zusätzliche Speicherung von w e ( t 2 ) bzw. eines
entsprechenden Merkers.
Search WWH ::




Custom Search