Mehrschichtige Perzeptren - Computational Intelligence

Information Technology Reference

In-Depth Information

z |

p =( x 0 , y 0 )

y 0

Abbildung 5.16: Anschauliche

Deutung des Gradienten einer

reellen Funktion z = f ( x , y ) an

einem Punkt p =( x 0 , y 0 ) .Esist

z | ( x 0 , y 0 ) =

z

y

|

z

x

|

p

y

x 0

z

x

| ( x 0 , y 0 ) , z

| ( x 0 , y 0 )

.

y

x

lichkeit, die Parameter des Netzes zu trainieren. Wir bewegen uns einfach ein kleines

Stück in diese Richtungen, bestimmen erneut die Richtungen der notwendigen Än-

derungen, bewegen uns wieder ein kleines Stück usf. — genauso, wie wir es auch in

Abschnitt 3.5 getan haben (vergleiche Abbildung 3.16 auf Seite 24).

In Abschnitt 3.5 konnten wir die Änderungsrichtungen jedoch nicht direkt aus

der natürlichen Fehlerfunktion ableiten (vergleiche Abbildung 3.13 auf Seite 22), son-

dern mussten eine Zusatzüberlegung anstellen, um die Fehlerfunktion geeignet zu

modifizieren. Doch dies war nur notwendig, weil wir eine Sprungfunktion als Akti-

vierungsfunktion verwendet haben, denn dadurch ist die Fehlerfunktion aus Plate-

aus zusammengesetzt. In den mehrschichtigen Perzeptren, die wir jetzt betrachten,

stehen uns aber auch andere Aktivierungsfunktionen zur Verfügung (vergleiche Ab-

bildung 5.2 auf Seite 45). Insbesondere können wir eine differenzierbare Aktivierungs-

funktion wählen, vorzugsweise die logistische Funktion. Eine solche Wahl hat folgen-

den Vorteil: Ist die Aktivierungsfunktion differenzierbar, dann auch die Fehlerfunk-

tion. 6 Wir können daher die Richtungen, in denen Gewichte und Schwellenwerte

geändert werden müssen, einfach dadurch bestimmen, dass wir den Gradienten der

Fehlerfunktion bestimmen.

Anschaulich beschreibt der Gradient einer Funktion das Steigungsverhalten die-

ser Funktion (siehe Abbildung 5.16). Formal liefert die Gradientenbildung ein Ve k -

torfeld .D.h.,jedemPunktdesDefinitionsbereichsderFunktionwirdeinVektorzu-

geordnet, dessen Elemente die partiellen Ableitungen der Funktion nach den verschie-

denen Argumenten der Funktion sind (auch Richtungsableitungen genannt). Diesen

Ve k t o r nenn t man o f t auc h e i n f a c h den Gr ad i en t en de r Funk t i on an dem ge ge b e -

nen Punkt (siehe Abbildung 5.16). Er zeigt in Richtung des stärksten Anstiegs der

Funktion in diesem Punkt. Die Gradientenbildung wird üblicherweise durch den

Operator (gesprochen: nabla) bezeichnet.

Das Training des neuronalen Netzes wird so sehr einfach: Zunächst werden die

Gewichte und Biaswerte zufällig initialisiert. Dann wird der Gradient der Fehler-

funktion an dem durch die aktuellen Gewichte und Biaswerte bestimmten Punkt be-

rechnet. Da wir den Fehler minimieren wollen, der Gradient aber die Richtung der

stärksten Steigung angibt, bewegen wir uns ein kleines Stück in die Gegenrichtung.

An dem so erreichten Punkt (neue Gewichte und Biaswerte) berechnen wir erneut

den Gradienten usf. bis wir ein Minimum der Fehlerfunktion erreicht haben.

6 Es sei denn, die Ausgabefunktion ist nicht differenzierbar. Wir werden jedoch meist wieder voraus-

setzen, dass die Ausgabefunktion die Identität ist.

Computational Intelligence

Search WWH ::

Custom Search

Home