Information Technology Reference
In-Depth Information
f
f ( x i )
( x i )
i
x i
x i
0
2.600
3.816
1.707
0.085
6
1.947
1
2.685
3.660
0.097
5
2
2.783
3.461
2.116
0.106
2.153
3
2.888
3.233
0.108
4
4
2.996
3.008
2.009
0.100
3
1.688
5
3.097
2.820
0.084
6
3.181
2.695
1.263
0.063
2
0.845
7
3.244
2.628
0.042
1
8
3.286
2.599
0.515
0.026
x
0.293
9
3.312
2.589
0.015
0
0
1
2
3
4
10
3.327
2.585
Abbildung 5.23: Gradientenabstieg mit Startwert 2.6 und Lernrate 0.05.
5.7 Varianten des Gradientenabstiegs
Im vorangehenden Abschnitt haben wir gesehen, welche Probleme beim Gradien-
tenabstieg auftreten können. Eines davon, nämlich das „Hängenbleiben“ in einem
lokalen Minimum, kann nicht prinzipiell vermieden werden. Man kann es nur et-
was abschwächen, indem man das Training mehrfach, ausgehend von verschiede-
nen Startwerten für die Parameter, durchführt. Aber auch dadurch werden nur die
Chancen verbessert, das globale Minimum (oder zumindest ein sehr gutes lokales
Minimum) zu finden. Eine Garantie, dass das globale Minimum gefunden wird, gibt
es nicht.
Um die beiden anderen Probleme, die die Größe der Lernrate und damit die Grö-
ße der Schritte im Parameterraum betreffen, zu beheben, wurden jedoch verschiede-
ne Varianten des Gradientenabstiegs entwickelt, von denen wir im folgenden einige
besprechen. Wir beschreiben diese Varianten, indem wir die Regel angeben, nach
der ein Gewicht in Abhängigkeit vom Gradienten der Fehlerfunktion zu ändern ist.
Da die Verfahren zum Teil auf Gradienten oder Parameterwerte aus vorhergehenden
Schritten zurückgreifen, führen wir einen Parameter t ein, der den Trainingsschritt
bezeichnet. So ist etwa w e ( t ) der Gradient der Fehlerfunktion zum Zeitpunkt t be-
züglich des Gewichtes w .ZumVergleich:DieGewichtsänderungsregelfürdennor-
malen Gradientenabstieg lautet mit diesem Parameter
w ( t )=
2
w ( t + 1)= w ( t )+ w ( t )
w e ( t )
mit
(vergleiche die Ableitungen auf Seite 61 und Seite 64). Wir unterscheiden nicht expli-
zit zwischen Batch- und Online-Training, da der Unterschied ja nur in der Verwen-
dung von e ( t ) bzw. e ( l ) ( t ) besteht.
Manhattan-Training
In vorangehenden Abschnitt haben wir gesehen, dass das Training sehr lange dau-
ern kann, wenn die Lernrate zu klein gewählt wird. Aber auch bei passend gewählter
Lernrate kann das Training zu langsam verlaufen, nämlich dann, wenn man sich in
Search WWH ::




Custom Search