Information Technology Reference
In-Depth Information
x
y
w
y
x
0
1
1
0
Abbildung 5.18: Ein zweischichtiges Perzeptron mit einem Eingang und Trainings-
beispiele für die Negation.
2
2
2
e
e
e
2
2
2
1
1
1
1
1
1
Fehler für x = 0
Fehler für x = 1
Fehlersumme
Abbildung 5.19: (Summe der) Fehlerquadrate für die Berechnung der Negation bei
Ve rwendung e i ne r l og i s t i s c hen Ak t i v i e rung s f unk t i on .
Als weiteres Beispiel untersuchen wir, wie man mit Hilfe eines Gradientenab-
stiegs versuchen kann, das Minimum einer Funktion, hier speziell
5
6 x 4 7 x 3 +
115
6
x 2 18 x + 6,
f ( x )=
zu finden. Diese Funktion hat zwar nicht unmittelbar etwas mit einer Fehlerfunk-
tion eines mehrschichtigen Perzeptrons zu tun, aber man kann mit ihr sehr schön
einige Probleme des Gradientenabstiegs verdeutlichen. Wir bestimmen zunächst die
Ableitung der obigen Funktion, also
10
3 x 3 21 x 2 +
115
3
( x )=
x 18,
f
die dem Gradienten entspricht (das Vorzeichen gibt die Richtung der stärksten Stei-
gung an). Die Berechnungen laufen dann nach dem Schema
x i = f
x i +1 = x i + x i
mit
( x i )
ab, wobei x 0 ein vorzugebender Startwert ist und der Lernrate entspricht.
Betrachten wir zuerst den Verlauf des Gradientenabstiegs für den Startwert x 0 =
0.2 und die Lernrate = 0.001, wie ihn Abbildung 5.21 zeigt. Ausgehend von ei-
nem Startpunkt auf dem linken Ast des Funktionsgraphen werden kleine Schritte
in Richtung auf das Minimum gemacht. Zwar ist abzusehen, dass auf diese Weise
irgendwann das (globale) Minimum erreicht wird, aber erst nach einer recht großen
Zahl von Schritten. Offenbar ist in diesem Fall die Lernrate zu klein, so dass das
Ve r f ah r en zu l ange b r auc h t .
Search WWH ::




Custom Search