Mehrschichtige Perzeptren - Computational Intelligence - page 67

Information Technology Reference

In-Depth Information

f

f ( x i )

( x i )

i

x i

x i

0

2.600

3.816

1.707

0.085

6

1.947

1

2.685

3.660

0.097

5

2

2.783

3.461

2.116

0.106

2.153

3

2.888

3.233

0.108

4

4

2.996

3.008

2.009

0.100

3

1.688

5

3.097

2.820

0.084

6

3.181

2.695

1.263

0.063

2

0.845

7

3.244

2.628

0.042

1

8

3.286

2.599

0.515

0.026

x

0.293

9

3.312

2.589

0.015

0

0

1

2

3

4

10

3.327

2.585

Abbildung 5.23: Gradientenabstieg mit Startwert 2.6 und Lernrate 0.05.

5.7 Varianten des Gradientenabstiegs

Im vorangehenden Abschnitt haben wir gesehen, welche Probleme beim Gradien-

tenabstieg auftreten können. Eines davon, nämlich das „Hängenbleiben“ in einem

lokalen Minimum, kann nicht prinzipiell vermieden werden. Man kann es nur et-

was abschwächen, indem man das Training mehrfach, ausgehend von verschiede-

nen Startwerten für die Parameter, durchführt. Aber auch dadurch werden nur die

Chancen verbessert, das globale Minimum (oder zumindest ein sehr gutes lokales

Minimum) zu finden. Eine Garantie, dass das globale Minimum gefunden wird, gibt

es nicht.

Um die beiden anderen Probleme, die die Größe der Lernrate und damit die Grö-

ße der Schritte im Parameterraum betreffen, zu beheben, wurden jedoch verschiede-

ne Varianten des Gradientenabstiegs entwickelt, von denen wir im folgenden einige

besprechen. Wir beschreiben diese Varianten, indem wir die Regel angeben, nach

der ein Gewicht in Abhängigkeit vom Gradienten der Fehlerfunktion zu ändern ist.

Da die Verfahren zum Teil auf Gradienten oder Parameterwerte aus vorhergehenden

Schritten zurückgreifen, führen wir einen Parameter t ein, der den Trainingsschritt

bezeichnet. So ist etwa w e ( t ) der Gradient der Fehlerfunktion zum Zeitpunkt t be-

züglich des Gewichtes w .ZumVergleich:DieGewichtsänderungsregelfürdennor-

malen Gradientenabstieg lautet mit diesem Parameter

w ( t )=

2

w ( t + 1)= w ( t )+ w ( t )

w e ( t )

mit

(vergleiche die Ableitungen auf Seite 61 und Seite 64). Wir unterscheiden nicht expli-

zit zwischen Batch- und Online-Training, da der Unterschied ja nur in der Verwen-

dung von e ( t ) bzw. e ( l ) ( t ) besteht.

Manhattan-Training

In vorangehenden Abschnitt haben wir gesehen, dass das Training sehr lange dau-

ern kann, wenn die Lernrate zu klein gewählt wird. Aber auch bei passend gewählter

Lernrate kann das Training zu langsam verlaufen, nämlich dann, wenn man sich in

Next Page

Computational Intelligence

Search WWH ::

Custom Search

Home