Information Technology Reference
In-Depth Information
2. Bestimme den Gradienten am aktuellen Punkt x ( t )
x ( t )
x ( t )
x 1
x ( t )
,...,
f
=
f
x n f
.
x
3. Gehe ein kleines Stück in Richtung des Gradienten
x ( t )
x ( t +1) = x ( t ) +
f
x
wobei ein Schrittweitenparameter (die sogenannte „Lernrate“ in KNNs) ist.
4. Wiederhole Schritte 2 und 3 bis ein Abbruchkriterium erfüllt ist (z. B. eine be-
stimmte Anzahl Schritte ausgeführt wurden oder der aktuelle Gradient sehr
klein ist).
Dieses Verfahren hat natürliche einige Probleme. Allein die Wahl des Schrittwei-
tenparameters ist kritisch. Bei einem zu kleinen Wert kann es sehr lange dauern, bis
das Maximum erreicht ist, da die Schritte zu klein sind. Bei einem zu großen Wert
kann es zu Oszillationen (Hin- und Herspringen im Suchraum) kommen, da die
Schritte zu groß sind. Ein weiteres Problem ist das Hängenbleiben in lokalen Maxi-
ma. Da nur die lokale Steigungsinformation genutzt wird, kann eventuell nur ein
lokales Maximum erreicht werden. Dieses Problem kann nicht prinzipiell behoben
werden. Eine Chancenverbesserung für das Finden des globalen Optimums wird
u. U. erwirkt durch ein mehrfaches Ausführen des Gradientenabstiegs von verschie-
denen Startwerten aus. Beispiele und Lösungsmöglichkeiten dieser Problems (z. B.
durch die Einführung eines Momentterms oder eines adaptiven Schrittweitenpara-
meters) haben wir bereits ausführlich in Teil I im Abschnitt 5.7 besprochen.
Search WWH ::




Custom Search