Information Technology Reference
In-Depth Information
einem Gebiet des Parameterraums bewegt, in dem die Fehlerfunktion „flach“ ver-
läuft, der Gradient also klein ist. Um diese Abhängigkeit von der Größe des Gradi-
enten zu beseitigen, kann man das sogenannte Manhattan-Training verwenden, bei
dem nur das Vorzeichen des Gradienten berücksichtigt wird. Die Gewichtsänderung
ist dann
w ( t )= sgn ( w e ( t )) .
Diese Änderungsregel erhält man übrigens auch, wenn man die Fehlerfunktion als
Summe der Beträge der Abweichungen der tatsächlichen von der gewünschten Aus-
gabe ansetzt und die Ableitung an der Stelle 0 (an der sie nicht existiert/unstetig ist)
geeignet vervollständigt.
Der Vorteil dieses Verfahrens ist, dass das Training mit konstanter Geschwindig-
keit (im Sinne einer festen Schrittweite) abläuft, unabhängig vom Verlauf der Feh-
lerfunktion. Ein Nachteil ist dagegen, dass die Gewichte nur noch bestimmte diskre-
te Werte annehmen können (aus einem Gitter mit dem Gitterabstand ), wodurch
eine beliebig genaue Annäherung an das Minimum der Fehlerfunktion prinzipiell
unmöglich wird. Außerdem besteht weiterhin das Problem der Wahl der Größe der
Lernrate.
Anheben der Ableitung der Aktivierungsfunktion
Oft verläuft die Fehlerfunktion in einem Gebiet des Parameterraumes deshalb flach,
weil Aktivierungsfunktionen im Sättigungsbereich (d. h. sehr weit entfernt vom Bias-
wert ,vergleicheAbbildung5.2aufSeite45)ausgewertetwerden,indemderGra-
dient sehr klein ist oder gar ganz verschwindet. Um das Lernen in einem solchen
Fall zu beschleunigen, kann man die Ableitung f
act der Aktivierungsfunktion künst-
lich um einen festen Wert erhöhen, so dass auch in den Sättigungsbereichen hin-
reichend große Lernschritte ausgeführt werden [Fahlman 1989]. = 0.1 liefert oft
gute Ergebnisse. Diese Modifikation ist auch unter dem Namen flat spot elimination
bekannt.
Die Ableitung der Aktivierungsfunktion anzuheben, hat außerdem den Vorteil,
dass einer Abschwächung des Fehlersignals in der Fehler-Rückpropagation entge-
gengewirkt wird. Denn z. B. die Ableitung der am häufigsten verwendeten logisti-
schen Funktion nimmt maximal den Wert 0.25 an (für den Funktionswert 0.5, also
amOrt des Biaswertes). Dadurchwird der Fehlerwert von Schicht zu Schicht tenden-
ziell kleiner, so dass in den vorderen Schichten des Netzes langsamer gelernt wird.
Momentterm
Beim Momentterm-Verfahren [Rumelhart u. a. 1986b] fügt man dem normalen Gra-
dientenabstiegsschritt einen Bruchteil der vorangehenden Gewichtsänderung hinzu.
Die Änderungsregel lautet folglich
w ( t )=
2
w e ( t )+ w ( t 1 ) ,
wobei ein Parameter ist, der kleiner als 1 sein muss, damit das Verfahren stabil ist.
Typi scherwe i se wi rd zwischen 0.5 und 0.95 gewählt.
Search WWH ::




Custom Search