Information Technology Reference
In-Depth Information
raum wird — je nach Stelligkeit der Funktion — in Rechtecke, Quader oder allge-
mein Hyperquader eingeteilt, denen jeweils ein Funktionswert zugeordnet wird. Es
ist klar, dass man dann wieder ein vierschichtiges Perzeptron angeben kann, das die
höherdimensionale „Treppenfunktion“ berechnet. Da man auch wieder die Güte der
Annäherung beliebig erhöhen kann, indem man die Rechtecke, Quader bzw. Hyper-
quader hinreichend klein macht, ist der obige Satz nicht auf einstellige Funktionen
beschränkt, sondern gilt für Funktionen beliebiger Stelligkeit.
Obwohl der obige Satz mehrschichtigen Perzeptren eine hohe Ausdrucksmäch-
tigkeit bescheinigt, wird man zugeben müssen, dass er für die Praxis wenig brauch-
bar ist. Denn um eine hinreichend gute Annäherung zu erzielen, wird man Treppen-
funktionen mit sehr geringer Stufenbreite und folglich mehrschichtige Perzeptren
mit einer immensen Anzahl von Neuronen verwenden müssen (je ein Neuron für
jede Stufe und für jede Stufengrenze).
Um zu verstehen, wie mehrschichtige Perzeptren Funktionen besser approximie-
ren können, betrachten wir den Fall einer einstelligen Funktion noch etwas genauer.
Man sieht leicht, dass sich eine Schicht des vierschichtigen Perzeptrons einsparen
lässt, wenn man nicht die absolute, sondern die relative Höhe einer Treppenstufe
(d. h. die Änderung zur vorhergehenden Stufe) als Gewicht der Verbindung zum
Ausgabeneuron verwendet. Die Idee ist in den Abbildungen 5.11 und 5.12 veran-
schaulicht. Jedes Neuron der versteckten Schicht steht für eine Stufengrenze und be-
stimmt, ob ein Eingabewert links oder rechts der Grenze liegt. Liegt er rechts, so wird
das Neuron aktiv. Das Ausgabeneuron erhält dann als zusätzliche Netzeingabe die
relative Höhe der Treppenstufe (Änderung zur vorhergehenden Stufe). Da jeweils al-
le Neuronen der versteckten Schicht aktiv sind, die für Stufengrenzen links von dem
aktuellen Eingabewert stehen, addieren sich die Gewichte gerade zur absoluten Hö-
he der Treppenstufe. 3 Man beachte, dass die (relativen) Stufenhöhen natürlich auch
negativ sein können, die Funktion also nicht unbedingt monoton wachsen muss.
Damit haben wir zwar eine Schicht von Neuronen eingespart, aber um eine gu-
te Annäherung zu erzielen, brauchen wir immer noch eine sehr große Anzahl von
Neuronen, da wir dazu schmale Treppenstufen brauchen. Wir können jedoch die An-
näherung der Funktion nicht nur dadurch verbessern, dass wir die Treppenstufen
schmaler machen, sondern auch dadurch, dass wir in den Neuronen der versteckten
Schicht andere Aktivierungsfunktionen verwenden. Indemwir z. B. die Sprungfunk-
tionen durch semi-lineare Funktionen ersetzen, können wir die Funktion durch eine
stückweise lineare Funktion annähern. Dies ist in Abbildung 5.13 veranschaulicht.
Natürlich können die „Stufenhöhen“ y i auch negativ sein. Das zugehörige drei-
schichtige Perzeptron ist in Abbildung 5.14 gezeigt.
Es ist unmittelbar klar, dass wir bei dieser Art der Annäherung bei gleichem Ab-
stand der „Stufengrenzen“ x i einen viel geringeren Fehler machen als bei einer Trep-
penfunktion. Oder umgekehrt: Um eine vorgegebene Fehlerschranke einzuhalten,
brauchen wir wesentlich weniger Neuronen in der versteckten Schicht. Die Zahl der
Neuronen lässt sich weiter verringern, wenn man nicht alle Abschnitte gleich breit
macht, sondern schmalere verwendet, wenn die Funktion stark gekrümmt ist, und
breitere, wenn sie nahezu linear ist. Durch gekrümmte Aktivierungsfunktionen —
3 Allerdings lässt sich dieses Verfahren nicht ohne weiteres auf mehrstellige Funktionen übertragen.
Damit dies möglich ist, müssen die Einflüsse der zwei oder mehr Argumente der Funktion in einem
gewissen Sinne unabhängig sein.
Search WWH ::




Custom Search