Database Reference
In-Depth Information
Die Einschatzung, dass es sich bei
Kategorie
um eine ziemlich unsinnige erste
Attributwahl handelt, wird also durch das mathematische Modell des Informati-
onsgewinns bestatigt. Fuhrt man die Berechnung von
gain(a)
auch fur die anderen
Attribute durch, so zeigt sich, dass
gain(Gruppe)
maximal ist und daher von ID3
als erstes Attribut ausgewahlt wurde.
Selbsttestaufgabe 5.9 (Informationsgewinn)
Bestimmen Sie fur alle 10 Attri-
bute im Kinoproblem den Informationsgewinn und uberzeugen Sie sich, dass
Gruppe
wirklich optimal ist.
Beachten Sie aber nochmals den schon zuvor bei der informellen Diskussion des
Begriffs
Wichtigkeit
eines Attributs gegebenen Hinweis, dass es sich bei dem Infor-
mationsgewinn eines Attributs um eine relative Große handelt, die in Abhangigkeit
von der jeweils aktuellen Beispielmenge drastisch variieren kann.
Selbsttestaufgabe 5.10 (Informationsgewinn)
Gegeben sei die Beispielmenge
E
Rest
=
, die in dem Kinobeispiel in Abbildung 5.4(c)
noch zu klassifizieren ist. Bestimmen Sie den jeweiligen Informationsgewinn, wenn
man als nachstes Attribut
Attraktivitat
bzw.
Kategorie
abfragt.
{
X
1
,X
3
,X
6
,X
7
,X
8
,X
9
,X
14
}
Mit dieser Art der Attributwahl ist das System ID3 sehr erfolgreich. Der (ab-
solute) Informationsgewinn gain(a) hat allerdings den Nachteil, dass er Attribute
mit zahlreichen Werten bevorzugt, was im Extremfall zu unsinnigen Ergebnissen
fuhren kann. Man nehme einmal an, bei einer medizinischen Diagnose werde als
eines der Attribute die personliche Identifikationsnummer
(PIN)
eines Patienten
benutzt. Dieses Attribut hat soviele Werte, n, wie es Patienten in der Datei gibt,
und partitioniert daher die Beispielmenge, E, in eben soviele Teilmengen mit je
einem Element. In diesem Fall ist die bedingte mittlere Information
n
1
n
H(0; 1) = 0
bit
I(E
|
PIN
bekannt) =
i=1
der Informationsgewinn also maximal. Fur die Diagnose selbst jedoch ist das Attri-
but
PIN
nutzlos.
Quinlan's verbessertes System C4.5 [187] benutzt statt des absoluten Informa-
tionsgewinns einen normierten Informationsgewinn
gain
(a)
split info
(a)
gain ratio
(a)=
wobei
split info
(a) die Entropie des Attributes a ist
k
split info
(a)=H(a)=−
P (a = w
i
)log
2
P (a = w
i
)
i=1
(vgl. die Gleichung (A.14), S. 503) und wir annehmen, dass
split info
(a)
=0ist.
Ist namlich
split info
(a) = 0, so kommt die Variable in der Beispielmenge nur mit
einem Wert vor, tragt also nichts zur Entscheidungsfindung bei.