Maschinelles Lernen - Methoden Wissensbasierter Systeme

Database Reference

In-Depth Information

Die Einschatzung, dass es sich bei Kategorie um eine ziemlich unsinnige erste

Attributwahl handelt, wird also durch das mathematische Modell des Informati-

onsgewinns bestatigt. Fuhrt man die Berechnung von gain(a) auch fur die anderen

Attribute durch, so zeigt sich, dass gain(Gruppe) maximal ist und daher von ID3

als erstes Attribut ausgewahlt wurde.

Selbsttestaufgabe 5.9 (Informationsgewinn) Bestimmen Sie fur alle 10 Attri-

bute im Kinoproblem den Informationsgewinn und uberzeugen Sie sich, dass Gruppe

wirklich optimal ist.

Beachten Sie aber nochmals den schon zuvor bei der informellen Diskussion des

Begriffs Wichtigkeit eines Attributs gegebenen Hinweis, dass es sich bei dem Infor-

mationsgewinn eines Attributs um eine relative Große handelt, die in Abhangigkeit

von der jeweils aktuellen Beispielmenge drastisch variieren kann.

Selbsttestaufgabe 5.10 (Informationsgewinn) Gegeben sei die Beispielmenge

E Rest =

, die in dem Kinobeispiel in Abbildung 5.4(c)

noch zu klassifizieren ist. Bestimmen Sie den jeweiligen Informationsgewinn, wenn

man als nachstes Attribut Attraktivitat bzw. Kategorie abfragt.

{

X 1 ,X 3 ,X 6 ,X 7 ,X 8 ,X 9 ,X 14 }

Mit dieser Art der Attributwahl ist das System ID3 sehr erfolgreich. Der (ab-

solute) Informationsgewinn gain(a) hat allerdings den Nachteil, dass er Attribute

mit zahlreichen Werten bevorzugt, was im Extremfall zu unsinnigen Ergebnissen

fuhren kann. Man nehme einmal an, bei einer medizinischen Diagnose werde als

eines der Attribute die personliche Identifikationsnummer (PIN) eines Patienten

benutzt. Dieses Attribut hat soviele Werte, n, wie es Patienten in der Datei gibt,

und partitioniert daher die Beispielmenge, E, in eben soviele Teilmengen mit je

einem Element. In diesem Fall ist die bedingte mittlere Information

n

1

n H(0; 1) = 0 bit

I(E

|

PIN bekannt) =

i=1

der Informationsgewinn also maximal. Fur die Diagnose selbst jedoch ist das Attri-

but PIN nutzlos.

Quinlan's verbessertes System C4.5 [187] benutzt statt des absoluten Informa-

tionsgewinns einen normierten Informationsgewinn

gain (a)

split info (a)

gain ratio (a)=

wobei split info (a) die Entropie des Attributes a ist

k

split info (a)=H(a)=−

P (a = w i )log 2 P (a = w i )

i=1

(vgl. die Gleichung (A.14), S. 503) und wir annehmen, dass split info (a)

=0ist.

Ist namlich split info (a) = 0, so kommt die Variable in der Beispielmenge nur mit

einem Wert vor, tragt also nichts zur Entscheidungsfindung bei.

Methoden Wissensbasierter Systeme

Search WWH ::

Custom Search

Home