Mehrschichtige Perzeptren - Computational Intelligence

Information Technology Reference

In-Depth Information

Weiter fügt man in Implementierungen der oben angegebenen Gewichtsände-

rung gern noch einen normalen Gradientenabstiegsschritt hinzu, wenn die Gradien-

ten w e ( t ) und w e ( t 1 ) das gleiche Vorzeichen haben, das Minimum also nicht

zwischen dem aktuellen und dem vorangehenden Gewichtswert liegt. Außerdem ist

es sinnvoll, den Betrag der Gewichtsänderung nach oben zu begrenzen, um zu große

Sprünge zu vermeiden.

Wenn d i e Annahmen de s Qu i ckpropaga t i on-Ve r f ahrens , näml i ch da s s d i e Feh-

lerfunktion lokal durch eine nach oben geöffnete Parabel angenähert werden kann

und die Parameter weitgehend unabhängig voneinander geändert werden können,

erfüllt sind und Batch-Training verwendet wird, gehört es zu den schnellsten Lern-

verfahren für mehrschichtige Perzeptren und rechtfertigt so seinen Namen. Sonst

neigt es zu instabilem Verhalten.

Gewichtsverfall

Es ist ungünstig, wenn durch das Training die Verbindungsgewichte eines neuro-

nalen Netzes zu große Werte annehmen. Denn erstens gelangt man durch große Ge-

wichte leicht in den Sättigungsbereich der logistischen Aktivierungsfunktion, in dem

durch den verschwindend kleinen Gradienten das Lernen fast zum Stillstand kom-

men kann. Zweitens steigt durch große Gewichte die Gefahr einer Überanpassung

(overfitting) an zufällige Besonderheiten der Trainingsdaten, so dass die Leistung

des Netzes bei der Verarbeitung neuer Daten hinter dem Erreichbaren zurückbleibt.

Der Gewichtsverfall (weight decay) [Werbos 1974] dient dazu, ein zu starkes An-

wachsen der Gewichte zu verhindern. Dazu wird jedes Gewicht in jedem Schritt um

einen kleinen Anteil seines Wertes verringert, also etwa

w ( t )=

2

w ( t ) w ( t ),

wenn der normale Gradientenabstieg zum Training verwendet wird. Als Alternative

kann man auch jedes Gewicht vor der Anpassung mit dem Faktor (1 ) multipli-

zieren, was oft einfacher ist. sollte sehr klein gewählt werden, damit die Gewichte

nicht dauerhaft auf zu kleinen Werten gehalten werden. Typische Werte für liegen

im Bereich von 0.005 bis 0.03.

Man beachte, dass man den Gewichtsverfall durch eine Erweiterung der Fehler-

funktion erhalten kann, die große Gewichte bestraft:

= e +

2

u U out U hidden

u +

p pred( u )

w up

e

.

Die Ableitung dieser modifizierten Fehlerfunktion führt zu der oben angegebenen

Änderungsregel für die Gewichte.

5.8 Beispiele zu einigen Varianten

Zur Illustration des Gradientenabstiegs mit Momentterm betrachten wir, analog zu

Abschnitt 5.6, das Training eines zweischichtigen Perzeptrons für die Negation, wie-

der ausgehend von den Startwerten = 3und w = 2 .DenAblaufdesLernvorgangs

Computational Intelligence

Search WWH ::

Custom Search

Home