Information Technology Reference
In-Depth Information
Sind nun alle Aktivierungsfunktionen linear, so kann man die Aktivierungen der
Neuronen der Schicht U 2 ebenfalls durch eine Matrix-Vektor-Rechnung bestimmen,
nämlich durch
act U 2 = D act · net U 2 ,
wobei act U 2 =(act u 1 ,...,act u n ) der Vektor der Aktivierungen der Neuronen der
Schicht U 2 , D act eine n n Diagonalmatrix der Faktoren u i , i = 1, . . . , n ,und =
( u 1 ,..., u n )
ein Biasvektor sind. Ist die Ausgabefunktion ebenfalls eine lineare
Funktion, so ist analog
out U 2 = D out · act U 2 ,
der Ausgabevektor der Neuronen der Schicht U 2 ,
D out wieder eine n n Diagonalmatrix von Faktoren und =( u 1 ,..., u n )
out U 2 =( out u 1 ,...,out u n )
wobei
schließ-
lich wieder ein Biasvektor sind. Daher können wir die Berechnung der Ausgaben
der Neuronen der Schicht U 2 aus den Ausgaben der Neuronen der vorhergehenden
Schicht U 1 schreiben als
,
out U 2 = D out ·
out U 1
D act ·
W ·
was sich zu
out U 2 = A 12 · out U 1 + b 12 ,
mit einer n m Matrix A 12 und einem n -dimensionalen Vektor b 12 zusammenfas-
sen lässt. Analog erhalten wir für die Berechnungen der Ausgaben der Neuronen
einer auf die Schicht U 2 folgenden Schicht U 3 aus den Ausgaben der Neuronen der
Schicht U 2
out U 3 = A 23 · out U 2 + b 23 ,
also für die Berechnungen der Ausgaben der Neuronen der Schicht U 3 aus den Aus-
gaben der Neuronen der Schicht U 1
out U 1 + b 13 ,
out U 3 = A 13 ·
wobei A 13 = A 23 · A 12 und b 13 = A 23 · b 12 + b 23 .DieBerechnungenzweieraufeinan-
derfolgender Schichten lassen sich daher auf eine Schicht reduzieren. In der gleichen
We i s e können wi r na tür l i ch d i e Be re chnungen be l i eb i g v i e l e r we i t e re r Sch i cht en e i n-
beziehen. Folglich können mehrschichtige Perzeptren nur affine Transformationen
berechnen, wenn die Aktivierungs- und die Ausgabefunktionen aller Neuronen line-
ar sind. Für komplexere Aufgaben braucht man deshalb nichtlineare Aktivierungs-
funktionen.
5.2 Funktionsapproximation
In diesem Abschnitt untersuchen wir, was wir gegenüber Schwellenwertelementen
(d. h. Neuronen mit der Sprungfunktion als Aktivierungsfunktion) gewinnen, wenn
wir auch andere Aktivierungsfunktionen zulassen. 2 Es zeigt sich zunächst, dass man
2 Wir setzen im folgenden st i l lschweigend voraus, dass die Ausgabefunkt ion al ler Neuronen die Iden-
tität ist. Nur die Aktivierungsfunktionen werden verändert.
Search WWH ::




Custom Search