Information Technology Reference
In-Depth Information
Epoche
w
Fehler
Epoche
w
Fehler
0
3.00
3.50
1.307
0
3.00
3.50
1.295
20
3.77
2.19
0.986
20
3.76
2.20
0.985
40
3.71
1.81
0.970
40
3.70
1.82
0.970
60
3.50
1.53
0.958
60
3.48
1.53
0.957
80
3.15
1.24
0.937
80
3.11
1.25
0.934
100
2.57
0.88
0.890
100
2.49
0.88
0.880
120
1.48
0.25
0.725
120
1.27
0.22
0.676
0.06
0.98
0.21
1.04
140
0.331
140
0.292
0.80
2.07
0.86
2.08
160
0.149
160
0.140
1.19
2.74
1.21
2.74
180
0.087
180
0.084
200
1.44
3.20
0.059
200
1.45
3.19
0.058
220
1.62
3.54
0.044
220
1.63
3.53
0.044
Online-Training
Batch-Training
Tabe l l e 5 . 1 : Le rnvorgänge mi t S t a r twe r t en = 3, w = 2 und Lernrate 1.
4
4
2
2
2
e
2
1
w
w
0
0
1
2
2
4
4
4
202 4
4
202 4
Online-Training
Batch-Training
Batch-Training
Abbildung 5.20: Lernvorgänge mit Startwerten = 3, w = 2 und Lernrate 1.
Allerdings sollte man die Lernrate auch nicht beliebig groß wählen, da es dann
leicht zu Oszillationen oder chaotischem Hin- und Herspringen auf der zu minimie-
renden Funktion kommen kann. Man sehe dazu den in Abbildung 5.22 gezeigten
Ve r l au f de s Gr ad i en t ena b s t i e g s f ü r den S t a r twe r t x 0 = 1.5 und die Lernrate =
0.25. Das Minimum wird immer wieder übersprungen und man erhält nach eini-
gen Schritten sogar Werte, die weiter vom Minimum entfernt sind als der Startwert.
Führt man die Rechnung noch einige Schritte fort, wird das lokale Maximum in der
Mitte übersprungen und man erhält Werte auf dem rechten Ast des Funktionsgra-
phen.
Aber selbst wenn die Größe der Lernrate passend gewählt wird, ist der Erfolg
des Verfahrens nicht garantiert. Wie man in Abbildung 5.23 sieht, die den Verlauf
des Gradientenabstiegs für den Startwert x 0 = 2.6 und die Lernrate = 0.05 zeigt,
wird zwar das nächstgelegene Minimum zügig angestrebt, doch ist dieses Minimum
leider nur ein lokales Minimum. Das globale Minimum wird nicht gefunden. Dieses
Search WWH ::




Custom Search