Mehrschichtige Perzeptren - Computational Intelligence

Information Technology Reference

In-Depth Information

raum wird — je nach Stelligkeit der Funktion — in Rechtecke, Quader oder allge-

mein Hyperquader eingeteilt, denen jeweils ein Funktionswert zugeordnet wird. Es

ist klar, dass man dann wieder ein vierschichtiges Perzeptron angeben kann, das die

höherdimensionale „Treppenfunktion“ berechnet. Da man auch wieder die Güte der

Annäherung beliebig erhöhen kann, indem man die Rechtecke, Quader bzw. Hyper-

quader hinreichend klein macht, ist der obige Satz nicht auf einstellige Funktionen

beschränkt, sondern gilt für Funktionen beliebiger Stelligkeit.

Obwohl der obige Satz mehrschichtigen Perzeptren eine hohe Ausdrucksmäch-

tigkeit bescheinigt, wird man zugeben müssen, dass er für die Praxis wenig brauch-

bar ist. Denn um eine hinreichend gute Annäherung zu erzielen, wird man Treppen-

funktionen mit sehr geringer Stufenbreite und folglich mehrschichtige Perzeptren

mit einer immensen Anzahl von Neuronen verwenden müssen (je ein Neuron für

jede Stufe und für jede Stufengrenze).

Um zu verstehen, wie mehrschichtige Perzeptren Funktionen besser approximie-

ren können, betrachten wir den Fall einer einstelligen Funktion noch etwas genauer.

Man sieht leicht, dass sich eine Schicht des vierschichtigen Perzeptrons einsparen

lässt, wenn man nicht die absolute, sondern die relative Höhe einer Treppenstufe

(d. h. die Änderung zur vorhergehenden Stufe) als Gewicht der Verbindung zum

Ausgabeneuron verwendet. Die Idee ist in den Abbildungen 5.11 und 5.12 veran-

schaulicht. Jedes Neuron der versteckten Schicht steht für eine Stufengrenze und be-

stimmt, ob ein Eingabewert links oder rechts der Grenze liegt. Liegt er rechts, so wird

das Neuron aktiv. Das Ausgabeneuron erhält dann als zusätzliche Netzeingabe die

relative Höhe der Treppenstufe (Änderung zur vorhergehenden Stufe). Da jeweils al-

le Neuronen der versteckten Schicht aktiv sind, die für Stufengrenzen links von dem

aktuellen Eingabewert stehen, addieren sich die Gewichte gerade zur absoluten Hö-

he der Treppenstufe. 3 Man beachte, dass die (relativen) Stufenhöhen natürlich auch

negativ sein können, die Funktion also nicht unbedingt monoton wachsen muss.

Damit haben wir zwar eine Schicht von Neuronen eingespart, aber um eine gu-

te Annäherung zu erzielen, brauchen wir immer noch eine sehr große Anzahl von

Neuronen, da wir dazu schmale Treppenstufen brauchen. Wir können jedoch die An-

näherung der Funktion nicht nur dadurch verbessern, dass wir die Treppenstufen

schmaler machen, sondern auch dadurch, dass wir in den Neuronen der versteckten

Schicht andere Aktivierungsfunktionen verwenden. Indemwir z. B. die Sprungfunk-

tionen durch semi-lineare Funktionen ersetzen, können wir die Funktion durch eine

stückweise lineare Funktion annähern. Dies ist in Abbildung 5.13 veranschaulicht.

Natürlich können die „Stufenhöhen“ y i auch negativ sein. Das zugehörige drei-

schichtige Perzeptron ist in Abbildung 5.14 gezeigt.

Es ist unmittelbar klar, dass wir bei dieser Art der Annäherung bei gleichem Ab-

stand der „Stufengrenzen“ x i einen viel geringeren Fehler machen als bei einer Trep-

penfunktion. Oder umgekehrt: Um eine vorgegebene Fehlerschranke einzuhalten,

brauchen wir wesentlich weniger Neuronen in der versteckten Schicht. Die Zahl der

Neuronen lässt sich weiter verringern, wenn man nicht alle Abschnitte gleich breit

macht, sondern schmalere verwendet, wenn die Funktion stark gekrümmt ist, und

breitere, wenn sie nahezu linear ist. Durch gekrümmte Aktivierungsfunktionen —

3 Allerdings lässt sich dieses Verfahren nicht ohne weiteres auf mehrstellige Funktionen übertragen.

Damit dies möglich ist, müssen die Einflüsse der zwei oder mehr Argumente der Funktion in einem

gewissen Sinne unabhängig sein.

Computational Intelligence

Search WWH ::

Custom Search

Home