Information Technology Reference
In-Depth Information
wie z. B. die logistische Funktion — lässt sich u.U. die Annäherung weiter verbes-
sern bzw. die gleiche Güte mit noch weniger Neuronen erreichen.
Das Prinzip, mit dem wir oben eine versteckte Schicht des mehrschichtigen Per-
zeptrons eingespart haben, lässt sich zwar nicht unmittelbar auf mehrdimensionale
Funktionen übertragen, da wir bei zwei oder mehr Dimensionen auf jeden Fall in
zwei Schritten die Gebiete abgrenzen müssen, für die die Gewichte der Verbindun-
gen zur Ausgabeschicht die Funktionswerte angeben. Aber mit mächtigeren mathe-
matischen Hilfsmitteln und wenigen Zusatzannahmen kann man nachweisen, dass
auch bei mehrdimensionalen Funktionen im Prinzip eine versteckte Schicht ausrei-
chend ist. Genauer kann man zeigen, dass ein mehrschichtiges Perzeptron jede ste-
tige Funktion (hier wird also eine stärkere Voraussetzung gemacht als in Satz 5.1,
der nur Riemann-Integrierbarkeit forderte) auf einem kompakten Teil des IR n belie-
big genau annähern kann, vorausgesetzt, die Aktivierungsfunktion der Neuronen
ist kein Polynom (was aber nach unserer Definition durch die Grenzwertforderun-
gen sowieso implizit ausgeschlossen ist). Diese Aussage gilt sogar in dem stärkeren
Sinne, dass die Differenz zwischen der Ausgabe des mehrschichtigen Perzeptrons
und der zu approximierenden Funktion überall kleiner ist als eine vorgegebene Feh-
lerschranke (während Satz 5.1 nur sagt, dass die Fläche zwischen der Ausgabe und
der Funktion beliebig klein gemacht werden kann). Einen Überblick über Ergebnis-
se zu den Approximationsfähigkeiten mehrschichtiger Perzeptren und einen Beweis
des angesprochenen Satzes findet man z. B. in [Pinkus 1999].
Man beachte jedoch, dass diese Ergebnisse nur insofern relevant sind, als mit
ihnen sichergestellt ist, dass nicht schon durch die Struktur eines mehrschichtigen
Perzeptrons mit nur einer versteckten Schicht die Annäherung bestimmter (stetiger)
Funktionen ausgeschlossen ist, es also keine prinzipiellen Hindernisse gibt. Diese
Ergebnisse sagen jedoch nichts darüber, wie man bei gegebener Netzstruktur, spezi-
ell einer gegebenen Zahl von versteckten Neuronen, die Parameterwerte findet, mit
denen die größtmögliche Annäherungsgüte erreicht wird.
Auch sollte man den angesprochenen Satz nicht so auffassen, dass durch ihn
gezeigt ist, dass mehrschichtige Perzeptren mit mehr als einer versteckten Schicht
unnütz sind, da sie die Berechnungsfähigkeiten mehrschichtiger Perzeptren nicht
erhöhen. (Auch wenn er gerne als Argument in dieser Richtung gebraucht wird.)
Durch eine zweite versteckte Schicht kann mitunter die darzustellende Funktion
sehr viel einfacher (d.h mit weniger Neuronen) berechnet werden. Auch könnten
mehrschichtige Perzeptren mit zwei versteckten Schichten Vorteile beim Training
bieten. Da mehrschichtige Perzeptren mit mehr als einer versteckten Schicht jedoch
sehr viel schwerer zu analysieren sind, ist hierüber bisher nur wenig bekannt.
5.3 Logistische Regression
Nachdemwir uns im letzten Abschnitt von der Ausdrucksmächtigkeit mehrschichti-
ger Perzeptren mit allgemeinen Aktivierungsfunktionen überzeugt haben, wenden
wir uns nun der Bestimmung ihrer Parameter mit Hilfe einer Menge von Trainings-
beispielen zu. In Kapitel 4 haben wir bereits angegeben, dass wir dazu eine Feh-
lerfunktion benötigen und dass man als eine solche üblicherweise die Summe der
Fehlerquadrate über die Ausgabeneuronen und die Trainingsbeispiele benutzt. Die-
Search WWH ::




Custom Search