Information Technology Reference
In-Depth Information
Epoche
w
Fehler
Epoche
w
Fehler
0
3.00
3.50
1.295
0
3.00
3.50
1.295
20
3.76
2.20
0.985
10
3.80
2.19
0.984
40
3.70
1.82
0.970
20
3.75
1.84
0.971
60
3.48
1.53
0.957
30
3.56
1.58
0.960
80
3.11
1.25
0.934
40
3.26
1.33
0.943
100
2.49
0.88
0.880
50
2.79
1.04
0.910
120
1.27
0.22
0.676
60
1.99
0.60
0.814
0.21
1.04
0.25
140
0.292
70
0.54
0.497
0.86
2.08
0.53
1.51
160
0.140
80
0.211
1.21
2.74
1.02
2.36
180
0.084
90
0.113
200
1.45
3.19
0.058
100
1.31
2.92
0.073
220
1.63
3.53
0.044
110
1.52
3.31
0.053
120
1.67
3.61
0.041
ohne Momentterm
mit Momentterm
Tabe l l e 5 . 2 : Le rnvorgänge mi t und ohne Moment t e rm ( = 0.9).
4
4
2
2
2
e
2
1
w
w
0
0
1
2
2
4
4
4
202 4
4
202 4
ohne Momentterm
mit Momentterm
mit Momentterm
Abbildung 5.26: Lernvorgänge mit und ohne Momentterm ( = 0.9); die Punkte
zeigen die Werte von Gewicht w und Biaswert alle 20/10 Epochen.
ohne Momentterm und mit einem Momentterm mit dem Faktor = 0.9 zeigen Ta-
belle 5.2 und Abbildung 5.26. Offenbar ist der Verlauf fast der gleiche, nur dass mit
Momentterm nur etwa die halbe Anzahl Epochen benötigt wird, um den gleichen
Fehler zu erreichen. Durch den Momentterm konnte die Lerngeschwindigkeit also
etwa verdoppelt werden. Beim Training größerer Netze mit mehr Lernmustern ist
der Geschwindigkeitsunterschied sogar oft noch viel größer.
Als weiteres Beispiel betrachten wir noch einmal die Minimierung der Funktion
aus Abschnitt 5.6 (siehe Seite 66f). Mit Hilfe des Momentterms kann der zu langsa-
me Abstieg aus Abbildung 5.21 deutlich beschleunigt werden, wie Abbildung 5.27
zeigt. Die zu kleine Lernrate kann durch den Momentterm aber nicht völlig aus-
geglichen werden. Dies liegt daran, dass, wie bereits im vorangehenden Abschnitt
bemerkt, selbst bei konstantem Gradienten f
f
( x )
1
( x ) die Schrittweite durch s =
beschränkt bleibt.
Search WWH ::




Custom Search