Information Technology Reference
In-Depth Information
zwischen dem Zielvektor und einem Vektor zu minimieren, der durch die Zustände aller Neu-
ronen oder eines Teilvektors der Zustände gebildet wird (siehe unten); häufig dienen dazu die
Aktivierungswerte der Ausgabeschicht. Berechnet wird dies z. B. durch die im vorigen Kapitel
erwähnten Verfahren.
Bei dem überwachten Lernen, das sehr häufig für so genannte assoziative Netzwerke verwen-
det wird, wird in vielen Fällen die Delta-Lernregel oder nach deren Erfindern Widrow und
Hoff (1960) auch Widrow-Hoff-Regel genannt verwendet. Diese berücksichtigt die Differenz
zwischen dem tatsächlich erreichten und dem erwünschten Ergebnis. Daraus ergibt sich:
'w ij = K (t i -a j )o i = Ko i G j
(4.8)
wobei K erneut die Lernrate ist, t i steht für die Komponente des Lehrmusters (Zielvektor), das
dem empfangenden Neuron i zugeordnet ist, a j ist der Aktivierungswert des empfangenden
Neurons, o i der Ausgang des sendenden Neurons und G j die Differenz zwischen dem aktuellen
Aktivierungswert a j des Outputneurons und der erwarteten Aktivierung t i . Aus der Formel wird
ersichtlich, dass hier explizit ein Lehrmuster (Zielvektor) vorgegeben wird, das für die Evalua-
tion herangezogen wird. Da die Differenz zwischen Zielvektor und faktisch erreichtem Vektor
durch den griechischen Buchstaben G (= delta) gemessen wird, heißt diese Regel Delta-Regel;
das 'w ij in der obigen Gleichung, also das Maß der Veränderung von w ij , ist übrigens ebenfalls
ein „Delta“, nämlich der groß geschriebene Buchstabe.
Es sei hier lediglich darauf hingewiesen, dass diese Lernregel bei mehrschichtigen Modellen
modifiziert werden muss. Die am häufigsten verwendete Regel ist die Backpropagation -Regel,
die einer generalisierten Delta-Lernregel entspricht. In diesem Fall ist die Berechnung der G j
wie folgt (Zell 2000, 86):
net j t j o j falls j eine Ausgabezelle ist
-
½
f '
°
°
°
°
,
(4.9)
G j
net j G k w ik
®
¾
¦
falls j eine verdeckte Zelle ist
f '
k
wobei der Index k über alle direkten Nachfolgezellen der aktuellen Zelle j läuft. „Generalisiert“
ist diese Regel in der Hinsicht, dass sie bei Netzwerken mit beliebig vielen Schichten ange-
wandt werden kann. 2 Inhaltlich besagt diese Regel, dass die Gewichtswerte zwischen der Zwi-
schenschicht und der Ausgabeschicht wie im Fall der Delta-Regel modifiziert werden und dass
der Modifizierungswert sozusagen an die Gewichtswerte zwischen der Eingabe- und der Zwi-
schenschicht in veränderter Form „zurück geschoben“ werden (daher der Name).
Es gibt zwischenzeitlich eine Vielzahl von Variationen dieser einfachen Lernregeln und ande-
re, die zur Fehlerminimierung entwickelt wurden. Auch hier kann auf die einschlägige Litera-
tur verwiesen werden. Auf eine besondere Lernregel, die zuweilen auch als Ausgabefunktion
verwendet wird, werden wir jedoch im Folgenden eingehen:
Beim nicht überwachten Lernen, das vor allem bei den so genannten ART-Netzen (die hier
nicht näher behandelt werden) und der Kohonen-Karte (siehe unten) angewandt wird, werden
systemimmanente Bewertungskriterien angewandt. Vereinfacht gesprochen geht es darum, dass
das NN nach dem so genannten „Winner-take-all“-Prinzip die Neuronen auswählt, die die
höchsten Aktivierungszustände haben und die übrigen Neuronen um die „selektierten Gewin-
2 Eine detaillierte Darstellung der exakten Berechnung im Fall der Backpropagation-Regel findet sich
z. B. in Schmidt et al. 2010.
Search WWH ::




Custom Search