Information Technology Reference
In-Depth Information
Sind nun alle Aktivierungsfunktionen linear, so kann man die Aktivierungen der
Neuronen der Schicht
U
2
ebenfalls durch eine Matrix-Vektor-Rechnung bestimmen,
nämlich durch
act
U
2
=
D
act
· net
U
2
,
wobei act
U
2
=(act
u
1
,...,act
u
n
)
der Vektor der Aktivierungen der Neuronen der
Schicht
U
2
,
D
act
eine
n
n
Diagonalmatrix der Faktoren
u
i
,
i
= 1, . . . ,
n
,und
=
(
u
1
,...,
u
n
)
ein Biasvektor sind. Ist die Ausgabefunktion ebenfalls eine lineare
Funktion, so ist analog
out
U
2
=
D
out
·
act
U
2
,
der Ausgabevektor der Neuronen der Schicht
U
2
,
D
out
wieder eine
n
n
Diagonalmatrix von Faktoren und
=(
u
1
,...,
u
n
)
out
U
2
=(
out
u
1
,...,out
u
n
)
wobei
schließ-
lich wieder ein Biasvektor sind. Daher können wir die Berechnung der Ausgaben
der Neuronen der Schicht
U
2
aus den Ausgaben der Neuronen der vorhergehenden
Schicht
U
1
schreiben als
,
out
U
2
=
D
out
·
out
U
1
D
act
·
W
·
was sich zu
out
U
2
=
A
12
· out
U
1
+
b
12
,
mit einer
n
m
Matrix
A
12
und einem
n
-dimensionalen Vektor
b
12
zusammenfas-
sen lässt. Analog erhalten wir für die Berechnungen der Ausgaben der Neuronen
einer auf die Schicht
U
2
folgenden Schicht
U
3
aus den Ausgaben der Neuronen der
Schicht
U
2
out
U
3
=
A
23
·
out
U
2
+
b
23
,
also für die Berechnungen der Ausgaben der Neuronen der Schicht
U
3
aus den Aus-
gaben der Neuronen der Schicht
U
1
out
U
1
+
b
13
,
out
U
3
=
A
13
·
wobei
A
13
=
A
23
·
A
12
und
b
13
=
A
23
·
b
12
+
b
23
.DieBerechnungenzweieraufeinan-
derfolgender Schichten lassen sich daher auf eine Schicht reduzieren. In der gleichen
We i s e können wi r na tür l i ch d i e Be re chnungen be l i eb i g v i e l e r we i t e re r Sch i cht en e i n-
beziehen. Folglich können mehrschichtige Perzeptren nur affine Transformationen
berechnen, wenn die Aktivierungs- und die Ausgabefunktionen aller Neuronen line-
ar sind. Für komplexere Aufgaben braucht man deshalb nichtlineare Aktivierungs-
funktionen.
5.2 Funktionsapproximation
In diesem Abschnitt untersuchen wir, was wir gegenüber Schwellenwertelementen
(d. h. Neuronen mit der Sprungfunktion als Aktivierungsfunktion) gewinnen, wenn
wir auch andere Aktivierungsfunktionen zulassen.
2
Es zeigt sich zunächst, dass man
2
Wir setzen im folgenden st i l lschweigend voraus, dass die Ausgabefunkt ion al ler Neuronen die Iden-
tität ist. Nur die Aktivierungsfunktionen werden verändert.