Information Technology Reference
In-Depth Information
3.7 Training von Netzen
Nachdem Ende der fünfziger Jahre erste einfache Neurocomputer erfolgreich zur Lö-
sung von Mustererkennungsproblemen eingesetzt worden waren (z. B. [Rosenblatt
1958]), [Widrow u. Hoff 1960] das einfache und schnelle Lernverfahren der Delta-
Regel entwickelt hatten und durch Rosenblatt [1962] der Perzeptron-Konvergenz-
satz (entspricht dem Konvergenzsatz für die Delta-Regel) bewiesen worden war,
setzte man große Hoffnungen in die Entwicklung (künstlicher) neuronaler Netze.
Es kam zur sogenannten „ersten Blütezeit“ der Neuronale-Netze-Forschung, in der
man glaubte, die wesentlichen Prinzipien lernfähiger Systeme entdeckt zu haben.
Erst als Minsky u. Papert [1969] eine sorgfältige mathematische Analyse des Per-
zeptrons durchführten und mit aller Deutlichkeit darauf hinwiesen, dass Schwellen-
wertelemente nur linear separable Funktionen berechnen können, begann man die
Grenzen der damals verwendeten Modelle und Verfahren zu erkennen. Zwar wus-
ste man bereits seit den frühen Arbeiten von McCulloch u. Pitts [1943], dass die Ein-
schränkungen der Berechnungsfähigkeit durch Netze von Schwellenwertelementen
aufgehoben werden können — man mit solchen Netzen etwa beliebige Boolesche
Funktionen berechnen kann — doch hatte man sich bis dahin auf das Training einzel-
ner Schwellenwertelemente beschränkt.
Die Übertragung der Lernverfahren auf Netze von Schwellenwertelementen er-
wies sich aber als erstaunlich schwieriges Problem. Die Delta-Regel etwa leitet die
vorzunehmende Gewichtsänderung aus der Abweichung der tatsächlichen von der
gewünschten Ausgabe ab (siehe Definition 3.2 auf Seite 25). Eine vorgegebene ge-
wünschte Ausgabe gibt es aber nur für das Schwellenwertelement, das die Ausgabe
des Netzes liefert. Für alle anderen Schwellenwertelemente, die Vorberechnungen
ausführen und ihre Ausgaben nur an andere Schwellenwertelemente weiterleiten,
kann keine solche gewünschte Ausgabe angegeben werden. Als Beispiel betrachte
man etwa das Biimplikationsproblem und die Struktur des Netzes, das wir zur Lö-
sung dieses Problems verwendet haben (Abbildung 3.10 auf Seite 19): Aus den Trai-
ningsbeispielen ergeben sich keine gewünschten Ausgaben für die beiden linken
Schwellenwertelemente, und zwar u. a. deshalb, weil die vorzunehmende Koordina-
tentransformation nicht eindeutig ist (man kann die Trenngeraden im Eingaberaum
auch ganz anders legen, etwa senkrecht zur Winkelhalbierenden, oder die Norma-
lenvektoren anders ausrichten).
In der Folge wurden (künstliche) neuronale Netze als „Forschungssackgasse“ an-
gesehen, und es begann das sogenannte „dunkle Zeitalter“ der Neuronale-Netze-
Forschung. Das Gebiet wurde erst mit der Entwicklung des Lernverfahrens der Feh-
ler-Rückpropagation (error backpropagation) wiederbelebt. Dieses Verfahren wurde
zuerst von Werbos [1974] beschrieben, blieb jedoch zunächst unbeachtet. Erst als
Rumelhart u. a. [1986a,b] das Verfahren unabhängig neu entwickelten und auch be-
kannt machten, begann das moderne Zeitalter der (künstlichen) neuronalen Netze,
das bis heute andauert.
Wir betrachten die Fehler-Rückpropagation erst in Kapitel 5, da sie nicht direkt
auf Schwellenwertelemente angewandt werden kann. Sie setzt voraus, dass die Ak-
tivierung eines Neurons nicht an einem scharfen Schwellenwert von 0 auf 1 springt,
sondern die Aktivierung langsam, über eine differenzierbare Funktion, ansteigt. Für
Netze aus Schwellenwertelementen kennt man bis heute kein Lernverfahren.
Search WWH ::




Custom Search