Mehrschichtige Perzeptren - Computational Intelligence - page 73

Information Technology Reference

In-Depth Information

Epoche

w

Fehler

Epoche

w

Fehler

0

3.00

3.50

1.295

0

3.00

3.50

1.295

20

3.76

2.20

0.985

10

3.80

2.19

0.984

40

3.70

1.82

0.970

20

3.75

1.84

0.971

60

3.48

1.53

0.957

30

3.56

1.58

0.960

80

3.11

1.25

0.934

40

3.26

1.33

0.943

100

2.49

0.88

0.880

50

2.79

1.04

0.910

120

1.27

0.22

0.676

60

1.99

0.60

0.814

0.21

1.04

0.25

140

0.292

70

0.54

0.497

0.86

2.08

0.53

1.51

160

0.140

80

0.211

1.21

2.74

1.02

2.36

180

0.084

90

0.113

200

1.45

3.19

0.058

100

1.31

2.92

0.073

220

1.63

3.53

0.044

110

1.52

3.31

0.053

120

1.67

3.61

0.041

ohne Momentterm

mit Momentterm

Tabe l l e 5 . 2 : Le rnvorgänge mi t und ohne Moment t e rm ( = 0.9).

4

4

2

2

2

e

2

1

w

w

0

0

1

2

2

4

4

4

202 4

4

202 4

ohne Momentterm

mit Momentterm

mit Momentterm

Abbildung 5.26: Lernvorgänge mit und ohne Momentterm ( = 0.9); die Punkte

zeigen die Werte von Gewicht w und Biaswert alle 20/10 Epochen.

ohne Momentterm und mit einem Momentterm mit dem Faktor = 0.9 zeigen Ta-

belle 5.2 und Abbildung 5.26. Offenbar ist der Verlauf fast der gleiche, nur dass mit

Momentterm nur etwa die halbe Anzahl Epochen benötigt wird, um den gleichen

Fehler zu erreichen. Durch den Momentterm konnte die Lerngeschwindigkeit also

etwa verdoppelt werden. Beim Training größerer Netze mit mehr Lernmustern ist

der Geschwindigkeitsunterschied sogar oft noch viel größer.

Als weiteres Beispiel betrachten wir noch einmal die Minimierung der Funktion

aus Abschnitt 5.6 (siehe Seite 66f). Mit Hilfe des Momentterms kann der zu langsa-

me Abstieg aus Abbildung 5.21 deutlich beschleunigt werden, wie Abbildung 5.27

zeigt. Die zu kleine Lernrate kann durch den Momentterm aber nicht völlig aus-

geglichen werden. Dies liegt daran, dass, wie bereits im vorangehenden Abschnitt

bemerkt, selbst bei konstantem Gradienten f

f

( x )

1

( x ) die Schrittweite durch s =

beschränkt bleibt.

Next Page

Computational Intelligence

Search WWH ::

Custom Search

Home