Information Technology Reference
In-Depth Information
z |
p =( x 0 , y 0 )
y 0
Abbildung 5.16: Anschauliche
Deutung des Gradienten einer
reellen Funktion z = f ( x , y ) an
einem Punkt p =( x 0 , y 0 ) .Esist
z | ( x 0 , y 0 ) =
z
z
y
|
z
x
|
p
p
y
x 0
z
x
| ( x 0 , y 0 ) , z
| ( x 0 , y 0 )
.
y
x
lichkeit, die Parameter des Netzes zu trainieren. Wir bewegen uns einfach ein kleines
Stück in diese Richtungen, bestimmen erneut die Richtungen der notwendigen Än-
derungen, bewegen uns wieder ein kleines Stück usf. — genauso, wie wir es auch in
Abschnitt 3.5 getan haben (vergleiche Abbildung 3.16 auf Seite 24).
In Abschnitt 3.5 konnten wir die Änderungsrichtungen jedoch nicht direkt aus
der natürlichen Fehlerfunktion ableiten (vergleiche Abbildung 3.13 auf Seite 22), son-
dern mussten eine Zusatzüberlegung anstellen, um die Fehlerfunktion geeignet zu
modifizieren. Doch dies war nur notwendig, weil wir eine Sprungfunktion als Akti-
vierungsfunktion verwendet haben, denn dadurch ist die Fehlerfunktion aus Plate-
aus zusammengesetzt. In den mehrschichtigen Perzeptren, die wir jetzt betrachten,
stehen uns aber auch andere Aktivierungsfunktionen zur Verfügung (vergleiche Ab-
bildung 5.2 auf Seite 45). Insbesondere können wir eine differenzierbare Aktivierungs-
funktion wählen, vorzugsweise die logistische Funktion. Eine solche Wahl hat folgen-
den Vorteil: Ist die Aktivierungsfunktion differenzierbar, dann auch die Fehlerfunk-
tion. 6 Wir können daher die Richtungen, in denen Gewichte und Schwellenwerte
geändert werden müssen, einfach dadurch bestimmen, dass wir den Gradienten der
Fehlerfunktion bestimmen.
Anschaulich beschreibt der Gradient einer Funktion das Steigungsverhalten die-
ser Funktion (siehe Abbildung 5.16). Formal liefert die Gradientenbildung ein Ve k -
torfeld .D.h.,jedemPunktdesDefinitionsbereichsderFunktionwirdeinVektorzu-
geordnet, dessen Elemente die partiellen Ableitungen der Funktion nach den verschie-
denen Argumenten der Funktion sind (auch Richtungsableitungen genannt). Diesen
Ve k t o r nenn t man o f t auc h e i n f a c h den Gr ad i en t en de r Funk t i on an dem ge ge b e -
nen Punkt (siehe Abbildung 5.16). Er zeigt in Richtung des stärksten Anstiegs der
Funktion in diesem Punkt. Die Gradientenbildung wird üblicherweise durch den
Operator (gesprochen: nabla) bezeichnet.
Das Training des neuronalen Netzes wird so sehr einfach: Zunächst werden die
Gewichte und Biaswerte zufällig initialisiert. Dann wird der Gradient der Fehler-
funktion an dem durch die aktuellen Gewichte und Biaswerte bestimmten Punkt be-
rechnet. Da wir den Fehler minimieren wollen, der Gradient aber die Richtung der
stärksten Steigung angibt, bewegen wir uns ein kleines Stück in die Gegenrichtung.
An dem so erreichten Punkt (neue Gewichte und Biaswerte) berechnen wir erneut
den Gradienten usf. bis wir ein Minimum der Fehlerfunktion erreicht haben.
6 Es sei denn, die Ausgabefunktion ist nicht differenzierbar. Wir werden jedoch meist wieder voraus-
setzen, dass die Ausgabefunktion die Identität ist.
Search WWH ::




Custom Search