Mehrschichtige Perzeptren - Computational Intelligence

Information Technology Reference

In-Depth Information

Sind nun alle Aktivierungsfunktionen linear, so kann man die Aktivierungen der

Neuronen der Schicht U 2 ebenfalls durch eine Matrix-Vektor-Rechnung bestimmen,

nämlich durch

act U 2 = D act · net U 2 ,

wobei act U 2 =(act u 1 ,...,act u n ) der Vektor der Aktivierungen der Neuronen der

Schicht U 2 , D act eine n n Diagonalmatrix der Faktoren u i , i = 1, . . . , n ,und =

( u 1 ,..., u n )

ein Biasvektor sind. Ist die Ausgabefunktion ebenfalls eine lineare

Funktion, so ist analog

out U 2 = D out · act U 2 ,

der Ausgabevektor der Neuronen der Schicht U 2 ,

D out wieder eine n n Diagonalmatrix von Faktoren und =( u 1 ,..., u n )

out U 2 =( out u 1 ,...,out u n )

wobei

schließ-

lich wieder ein Biasvektor sind. Daher können wir die Berechnung der Ausgaben

der Neuronen der Schicht U 2 aus den Ausgaben der Neuronen der vorhergehenden

Schicht U 1 schreiben als

out U 2 = D out ·

out U 1

D act ·

W ·

was sich zu

out U 2 = A 12 · out U 1 + b 12 ,

mit einer n m Matrix A 12 und einem n -dimensionalen Vektor b 12 zusammenfas-

sen lässt. Analog erhalten wir für die Berechnungen der Ausgaben der Neuronen

einer auf die Schicht U 2 folgenden Schicht U 3 aus den Ausgaben der Neuronen der

Schicht U 2

out U 3 = A 23 · out U 2 + b 23 ,

also für die Berechnungen der Ausgaben der Neuronen der Schicht U 3 aus den Aus-

gaben der Neuronen der Schicht U 1

out U 1 + b 13 ,

out U 3 = A 13 ·

wobei A 13 = A 23 · A 12 und b 13 = A 23 · b 12 + b 23 .DieBerechnungenzweieraufeinan-

derfolgender Schichten lassen sich daher auf eine Schicht reduzieren. In der gleichen

We i s e können wi r na tür l i ch d i e Be re chnungen be l i eb i g v i e l e r we i t e re r Sch i cht en e i n-

beziehen. Folglich können mehrschichtige Perzeptren nur affine Transformationen

berechnen, wenn die Aktivierungs- und die Ausgabefunktionen aller Neuronen line-

ar sind. Für komplexere Aufgaben braucht man deshalb nichtlineare Aktivierungs-

funktionen.

5.2 Funktionsapproximation

In diesem Abschnitt untersuchen wir, was wir gegenüber Schwellenwertelementen

(d. h. Neuronen mit der Sprungfunktion als Aktivierungsfunktion) gewinnen, wenn

wir auch andere Aktivierungsfunktionen zulassen. 2 Es zeigt sich zunächst, dass man

2 Wir setzen im folgenden st i l lschweigend voraus, dass die Ausgabefunkt ion al ler Neuronen die Iden-

tität ist. Nur die Aktivierungsfunktionen werden verändert.

Computational Intelligence

Search WWH ::

Custom Search

Home