Mehrschichtige Perzeptren - Computational Intelligence

Information Technology Reference

In-Depth Information

Der zusätzliche Term w ( t 1 ) wird Momentterm genannt, da seine Wirkung

dem Impuls (engl. momentum )entspricht,deneineKugelgewinnt,dieeineabschüs-

sige Fläche hinunterrollt. Je länger die Kugel in die gleiche Richtung rollt, umso

schneller wird sie. Sie bewegt sich daher tendenziell in der alten Bewegungsrich-

tung weiter (Momentterm), folgt aber dennoch (wenn auch verzögert) der Form der

Fläche (Gradiententerm).

Durch Einführen eines Momentterms kann das Lernen in Gebieten des Parame-

terraums, in denen die Fehlerfunktion flach verläuft, aber in eine einheitliche Rich-

tung fällt, beschleunigt werden. Auch wird das Problemder Wahl der Lernrate etwas

gemindert, da der Momentterm je nach Verlauf der Fehlerfunktion die Schrittweite

vergrößert oder verkleinert. Der Momentterm kann jedoch eine zu kleine Lernrate

nicht völlig ausgleichen, da die Schrittweite | w | bei konstantem Gradienten w e

durch s =

w e

2(1 )

beschränkt bleibt. Auch kann es bei einer zu großen Lernrate

immer noch zu Oszillationen und chaotischem Hin- und Herspringen kommen.

Selbstadaptive Fehler-Rückpropagation

Bei der selbstadaptiven Fehler-Rückpropagation (super self-adaptive backpropaga-

tion, SuperSAB) [Jakobs 1988, Tollenaere 1990] wird für jeden Parameter eines neu-

ronalen Netzes, also jedes Gewicht und jeden Biaswert, eine eigene Lernrate w ein-

geführt. Diese Lernraten werden vor ihrer Verwendung im jeweiligen Schritt in Ab-

hängigkeit von dem aktuellen und dem vorangehenden Gradienten gemäß der fol-

genden Regel angepasst:

c · w ( t 1 ) ,fas w e ( t ) · w e ( t 1 ) < 0,

c + · w ( t 1 ) ,fas w e ( t ) · w e ( t 1 ) > 0

w e ( t 1 ) · w e ( t 2 ) 0,

w ( t 1 ) ,son .

c ist ein Schrumpfungsfaktor (0 < c

w ( t )=

< 1), mit dem die Lernrate verkleinert wird,

wenn der aktuelle und der vorangehende Gradient verschiedene Vorzeichen haben.

Denn in diesem Fall wurde das Minimum der Fehlerfunktion übersprungen, und es

sind daher kleinere Schritte notwendig, um es zu erreichen. Typischerweise wird c

zwischen 0.5 und 0.7 gewählt.

c + ist einWachstumsfaktor ( c + > 1), mit demdie Lernrate vergrößert wird, wenn

der aktuelle und der vorangehende Gradient das gleiche Vorzeichen haben. In die-

sem Fall werden zwei Schritte in die gleiche Richtung gemacht, und es ist daher

plausibel anzunehmen, dass ein längeres Gefälle der Fehlerfunktion abzulaufen ist.

Die Lernrate sollte daher vergrößert werden, um dieses Gefälle schneller herabzu-

laufen. Typischerweise wird c + zwischen 1.05 und 1.2 gewählt, so dass die Lernrate

nur langsam wächst.

Die zweite Bedingung für die Anwendung des Wachstumsfaktors c + soll ver-

hindern, dass die Lernrate nach einer Verkleinerung unmittelbar wieder vergrößert

wird. Dies wird üblicherweise so implementiert, dass nach einer Verkleinerung der

Lernrate der alte Gradient auf 0 gesetzt wird, um anzuzeigen, dass eine Verkleine-

rung vorgenommen wurde. Zwar wird so auch eine erneute Verkleinerung unter-

drückt, doch spart man sich die zusätzliche Speicherung von w e ( t 2 ) bzw. eines

entsprechenden Merkers.

Computational Intelligence

Search WWH ::

Custom Search

Home