Schwellenwertelemente - Computational Intelligence

Information Technology Reference

In-Depth Information

3.7 Training von Netzen

Nachdem Ende der fünfziger Jahre erste einfache Neurocomputer erfolgreich zur Lö-

sung von Mustererkennungsproblemen eingesetzt worden waren (z. B. [Rosenblatt

1958]), [Widrow u. Hoff 1960] das einfache und schnelle Lernverfahren der Delta-

Regel entwickelt hatten und durch Rosenblatt [1962] der Perzeptron-Konvergenz-

satz (entspricht dem Konvergenzsatz für die Delta-Regel) bewiesen worden war,

setzte man große Hoffnungen in die Entwicklung (künstlicher) neuronaler Netze.

Es kam zur sogenannten „ersten Blütezeit“ der Neuronale-Netze-Forschung, in der

man glaubte, die wesentlichen Prinzipien lernfähiger Systeme entdeckt zu haben.

Erst als Minsky u. Papert [1969] eine sorgfältige mathematische Analyse des Per-

zeptrons durchführten und mit aller Deutlichkeit darauf hinwiesen, dass Schwellen-

wertelemente nur linear separable Funktionen berechnen können, begann man die

Grenzen der damals verwendeten Modelle und Verfahren zu erkennen. Zwar wus-

ste man bereits seit den frühen Arbeiten von McCulloch u. Pitts [1943], dass die Ein-

schränkungen der Berechnungsfähigkeit durch Netze von Schwellenwertelementen

aufgehoben werden können — man mit solchen Netzen etwa beliebige Boolesche

Funktionen berechnen kann — doch hatte man sich bis dahin auf das Training einzel-

ner Schwellenwertelemente beschränkt.

Die Übertragung der Lernverfahren auf Netze von Schwellenwertelementen er-

wies sich aber als erstaunlich schwieriges Problem. Die Delta-Regel etwa leitet die

vorzunehmende Gewichtsänderung aus der Abweichung der tatsächlichen von der

gewünschten Ausgabe ab (siehe Definition 3.2 auf Seite 25). Eine vorgegebene ge-

wünschte Ausgabe gibt es aber nur für das Schwellenwertelement, das die Ausgabe

des Netzes liefert. Für alle anderen Schwellenwertelemente, die Vorberechnungen

ausführen und ihre Ausgaben nur an andere Schwellenwertelemente weiterleiten,

kann keine solche gewünschte Ausgabe angegeben werden. Als Beispiel betrachte

man etwa das Biimplikationsproblem und die Struktur des Netzes, das wir zur Lö-

sung dieses Problems verwendet haben (Abbildung 3.10 auf Seite 19): Aus den Trai-

ningsbeispielen ergeben sich keine gewünschten Ausgaben für die beiden linken

Schwellenwertelemente, und zwar u. a. deshalb, weil die vorzunehmende Koordina-

tentransformation nicht eindeutig ist (man kann die Trenngeraden im Eingaberaum

auch ganz anders legen, etwa senkrecht zur Winkelhalbierenden, oder die Norma-

lenvektoren anders ausrichten).

In der Folge wurden (künstliche) neuronale Netze als „Forschungssackgasse“ an-

gesehen, und es begann das sogenannte „dunkle Zeitalter“ der Neuronale-Netze-

Forschung. Das Gebiet wurde erst mit der Entwicklung des Lernverfahrens der Feh-

ler-Rückpropagation (error backpropagation) wiederbelebt. Dieses Verfahren wurde

zuerst von Werbos [1974] beschrieben, blieb jedoch zunächst unbeachtet. Erst als

Rumelhart u. a. [1986a,b] das Verfahren unabhängig neu entwickelten und auch be-

kannt machten, begann das moderne Zeitalter der (künstlichen) neuronalen Netze,

das bis heute andauert.

Wir betrachten die Fehler-Rückpropagation erst in Kapitel 5, da sie nicht direkt

auf Schwellenwertelemente angewandt werden kann. Sie setzt voraus, dass die Ak-

tivierung eines Neurons nicht an einem scharfen Schwellenwert von 0 auf 1 springt,

sondern die Aktivierung langsam, über eine differenzierbare Funktion, ansteigt. Für

Netze aus Schwellenwertelementen kennt man bis heute kein Lernverfahren.

Computational Intelligence

Search WWH ::

Custom Search

Home