Information Technology Reference
In-Depth Information
Weiter fügt man in Implementierungen der oben angegebenen Gewichtsände-
rung gern noch einen normalen Gradientenabstiegsschritt hinzu, wenn die Gradien-
ten w e ( t ) und w e ( t 1 ) das gleiche Vorzeichen haben, das Minimum also nicht
zwischen dem aktuellen und dem vorangehenden Gewichtswert liegt. Außerdem ist
es sinnvoll, den Betrag der Gewichtsänderung nach oben zu begrenzen, um zu große
Sprünge zu vermeiden.
Wenn d i e Annahmen de s Qu i ckpropaga t i on-Ve r f ahrens , näml i ch da s s d i e Feh-
lerfunktion lokal durch eine nach oben geöffnete Parabel angenähert werden kann
und die Parameter weitgehend unabhängig voneinander geändert werden können,
erfüllt sind und Batch-Training verwendet wird, gehört es zu den schnellsten Lern-
verfahren für mehrschichtige Perzeptren und rechtfertigt so seinen Namen. Sonst
neigt es zu instabilem Verhalten.
Gewichtsverfall
Es ist ungünstig, wenn durch das Training die Verbindungsgewichte eines neuro-
nalen Netzes zu große Werte annehmen. Denn erstens gelangt man durch große Ge-
wichte leicht in den Sättigungsbereich der logistischen Aktivierungsfunktion, in dem
durch den verschwindend kleinen Gradienten das Lernen fast zum Stillstand kom-
men kann. Zweitens steigt durch große Gewichte die Gefahr einer Überanpassung
(overfitting) an zufällige Besonderheiten der Trainingsdaten, so dass die Leistung
des Netzes bei der Verarbeitung neuer Daten hinter dem Erreichbaren zurückbleibt.
Der Gewichtsverfall (weight decay) [Werbos 1974] dient dazu, ein zu starkes An-
wachsen der Gewichte zu verhindern. Dazu wird jedes Gewicht in jedem Schritt um
einen kleinen Anteil seines Wertes verringert, also etwa
w ( t )=
2
w ( t ) w ( t ),
wenn der normale Gradientenabstieg zum Training verwendet wird. Als Alternative
kann man auch jedes Gewicht vor der Anpassung mit dem Faktor (1 ) multipli-
zieren, was oft einfacher ist. sollte sehr klein gewählt werden, damit die Gewichte
nicht dauerhaft auf zu kleinen Werten gehalten werden. Typische Werte für liegen
im Bereich von 0.005 bis 0.03.
Man beachte, dass man den Gewichtsverfall durch eine Erweiterung der Fehler-
funktion erhalten kann, die große Gewichte bestraft:
= e +
2
u U out U hidden
u +
p pred( u )
w up
e
.
Die Ableitung dieser modifizierten Fehlerfunktion führt zu der oben angegebenen
Änderungsregel für die Gewichte.
5.8 Beispiele zu einigen Varianten
Zur Illustration des Gradientenabstiegs mit Momentterm betrachten wir, analog zu
Abschnitt 5.6, das Training eines zweischichtigen Perzeptrons für die Negation, wie-
der ausgehend von den Startwerten = 3und w = 2 .DenAblaufdesLernvorgangs
Search WWH ::




Custom Search