Maschinelles Lernen - Methoden Wissensbasierter Systeme - page 117

Database Reference

In-Depth Information

I(E):=H p

=

n

p + n

p

p + n

p

p + n −

n

p + n

n

p + n

p + n ;

−

log 2

log 2

bit

Selbsttestaufgabe 5.7 (Informationsgehalt, Entropie) Wie groß ist der In-

formationsgehalt der Antwort auf die Frage, ob es sich bei einem beliebigen Beispiel

aus der Trainingsmenge des Kinoproblems (Abbildung 5.3) um ein positives oder

negatives Beispiel handelt?

Bei der Attributauswahl soll nun berucksichtigt werden, welchen Informations-

gewinn man erhalt, wenn man den Wert eines Attributs kennt. Dazu stellen wir

fest, wieviel Information wir nach dem Test eines Attributs a noch benotigen. Je-

des Attribut a teilt die Trainingsmenge E in Teilmengen E 1 ,...,E k auf, wobei k

die Anzahl der verschiedenen Werte w 1 ,...,w k ist, die a annehmen kann (vgl. die

for each -Anweisung im Algorithmus DT in Abbildung 5.6). Jede Teilmenge E i habe

p i positive und n i negative Beispiele. Wenn wir a = w i wissen, benotigen wir also

noch

p i

p i + n i

n i

p i + n i

I(E i )=H(

;

) bit

an Information. Da fur ein beliebiges Beispiel aus E mit Attributwert a = w i die

Wahrscheinlichkeit p i + n i

p + n betragt, ist der mittlere Informationsgehalt der Antwort

(ob es sich um ein positives oder negatives Beispiel handelt), nachdem wir das

Attribut a getestet haben, die folgende bedingte mittlere Information :

k

I(E

|

a bekannt) =

P (a = w i )

·

I(E i )

i=1

k

p i + n i

p + n ·

p i + n i ; n i

p i

p i + n i ) bit

Der Informationsgewinn ( information gain ) durch das Attribut a ist nun als

Differenz zwischen der ursprunglichen Information und der Restinformation defi-

niert:

=

H(

i=1

a bekannt)

gain(a) ist also nichts anderes als die gegenseitige Information zwischen dem Attri-

but a und der Auspragung positiv / negativ (vgl. Gleichung (A.16) auf S. 504).

Das Lernsystem ID3 wahlt als nachstes zu testendes Attribut a dasjenige aus,

bei dem gain(a) maximal ist.

gain(a)=I(E)

−

I(E

|

Beispiel 5.8 (Attributauswahl und Informationsgewinn) Fur das Kinopro-

blem haben wir fur die Wurzel des Entscheidungsbaumes (vgl. Abbildung 5.4):

gain(Gruppe)

=I(E)

−

I(E

|

Gruppe bekannt)

[ 15 H( 7 ; 7 )+ 15 H( 5 ; 5 )+ 15 H(1; 0)]

≈

0.9968

−

≈

0.2964 bit

gain(Kategorie)=I(E)

−

I(E

|

Kategorie bekannt)

[ 15 H( 4 ; 4 )+ 15 H( 2 ; 2 )+ 15 H( 2 ; 2 )+ 15 H( 3 ; 3 )]

≈

0.9968

−

≈

0.0634 bit

Next Page

Methoden Wissensbasierter Systeme

Search WWH ::

Custom Search

Home