Information Technology Reference
In-Depth Information
Wir konnten nun zeigen (Klüver und Klüver 2011 a), dass der MC-Wert eines NN mit be-
stimmten topologischen Eigenschaften des NN zusammenhängt. Untersucht wurde dies an feed
forward Netzen; es spricht jedoch einiges dafür, dass derartige Zusammenhänge auch für NN
mit anderen Strukturen gelten.
Die Topologie von NN wird, wie bemerkt, im wesentlichen durch die Gewichtsmatrix be-
stimmt; die Variationen der Gewichtsmatrix definieren, wie wir gezeigt haben, auch die ver-
schiedenen Lernprozesse der NN. Man kann nun die Gewichtsmatrizen verschiedener NN
dadurch charakterisieren, dass man die Varianz der Matrizen bestimmt (vgl. die ähnliche Über-
legung zur neuen Version des v-Parameters in Kapitel 2). Die Varianz wird, grob gesprochen,
definiert als die Abweichung der Werte innerhalb einer Menge von einer „Gleichverteilung“:
Je ungleicher die Werte sind, desto größer ist die Varianz und umgekehrt (für genaue Details
vgl. jedes Lehrbuch über Statistik). Nach unseren Untersuchungen gibt es nun folgenden Zu-
sammenhang:
Je größer die Varianz einer Gewichtsmatrix ist, desto kleiner ist der MC-Wert des NN und
desto größer sind entsprechend die Attraktionsbecken.
Eine Einschränkung ist hier unbedingt am Platze: Der in unseren Experimenten festgestellte
Zusammenhang zwischen Varianz und MC-Werten ist „nur“ ein statistischer, da man immer
wieder Ausnahmen feststellen kann (bzw. muss). Diese statistische Korrelation ist jedoch hoch
signifikant, so dass man a) annehmen kann, dass ein NN mit hoher Fehlertoleranz (= kleinen
MC-Werten) sehr wahrscheinlich auch einen niedrigen Varianzwert für die Gewichtsmatrix hat
- und umgekehrt, und b) dass bei einer Gewichtsmatrix mit niedriger Varianz das NN sehr
wahrscheinlich auch niedrige MC-Werte hat - und umgekehrt.
Diese Ergebnisse sind in dem Sinne intuitiv plausibel, dass man sich leicht vorstellen kann, wie
relativ gleiche Gewichtswerte, also eine relativ homogene Topologie, die Unterschiede zwi-
schen verschiedenen Informationsflüssen sozusagen verwischen, ungleiche Gewichtswerte
jedoch die Unterschiede erhalten und ggf. sogar verstärken. Die Ergebnisse zeigen jedoch
auch, dass NN nicht notwendig fehlertolerant sein müssen. Wenn man also aus bestimmten
praktischen Gründen NN mit einer hohen Fehlertoleranz haben will, muss man offenbar auf
deren Varianz achten, die nicht zu groß sein darf; das Gleiche gilt, wenn man NN einsetzen
will, die auf kleine Inputveränderungen mit unterschiedlichen Outputs reagieren sollen, also
sensitiv gegenüber verschiedenen Anforderungen reagieren. Inwiefern durch diese Überlegun-
gen das Training von NN beeinflusst wird und werden kann, ist gegenwärtig noch Gegenstand
von weiteren Untersuchungen. Zumindest lässt sich jetzt schon festhalten, dass man NN in
einigen ihrer wichtigsten Eigenschaften durchaus auch etwas theoretischer verstehen kann.
Die in Kapitel 2 erwähnten Ergebnisse bezüglich Boolescher Netze sind weitgehend analog zu
den dargestellten Resultaten bei NN: Je gleichförmiger die Werte in der Adjazenzmatrix ver-
teilt sind, desto kleiner sind die MC-Werte und umgekehrt. Wir haben zwar bei unseren Expe-
rimenten mit BN nicht das Varianzmaß verwendet, da dies bei binären Adjazenzmatrizen nicht
sehr sinnvoll ist, sondern eine Variante (Klüver und Klüver 2011). Das Prinzip jedoch ist
gleich und deswegen kann man vermuten, dass unsere Ergebnisse generell für dynamische
Netze gelten, also nicht nur für feed forward NN. Die Plausibilität dieser Vermutung ergibt
sich nicht zuletzt aus dem mehrfach erwähnten universalen Charakter von BN. Hier scheint es
um sehr allgemeine Gesetzmäßigkeiten zu gehen.
Search WWH ::




Custom Search