Database Reference
In-Depth Information
Die Einschatzung, dass es sich bei Kategorie um eine ziemlich unsinnige erste
Attributwahl handelt, wird also durch das mathematische Modell des Informati-
onsgewinns bestatigt. Fuhrt man die Berechnung von gain(a) auch fur die anderen
Attribute durch, so zeigt sich, dass gain(Gruppe) maximal ist und daher von ID3
als erstes Attribut ausgewahlt wurde.
Selbsttestaufgabe 5.9 (Informationsgewinn) Bestimmen Sie fur alle 10 Attri-
bute im Kinoproblem den Informationsgewinn und uberzeugen Sie sich, dass Gruppe
wirklich optimal ist.
Beachten Sie aber nochmals den schon zuvor bei der informellen Diskussion des
Begriffs Wichtigkeit eines Attributs gegebenen Hinweis, dass es sich bei dem Infor-
mationsgewinn eines Attributs um eine relative Große handelt, die in Abhangigkeit
von der jeweils aktuellen Beispielmenge drastisch variieren kann.
Selbsttestaufgabe 5.10 (Informationsgewinn) Gegeben sei die Beispielmenge
E Rest =
, die in dem Kinobeispiel in Abbildung 5.4(c)
noch zu klassifizieren ist. Bestimmen Sie den jeweiligen Informationsgewinn, wenn
man als nachstes Attribut Attraktivitat bzw. Kategorie abfragt.
{
X 1 ,X 3 ,X 6 ,X 7 ,X 8 ,X 9 ,X 14 }
Mit dieser Art der Attributwahl ist das System ID3 sehr erfolgreich. Der (ab-
solute) Informationsgewinn gain(a) hat allerdings den Nachteil, dass er Attribute
mit zahlreichen Werten bevorzugt, was im Extremfall zu unsinnigen Ergebnissen
fuhren kann. Man nehme einmal an, bei einer medizinischen Diagnose werde als
eines der Attribute die personliche Identifikationsnummer (PIN) eines Patienten
benutzt. Dieses Attribut hat soviele Werte, n, wie es Patienten in der Datei gibt,
und partitioniert daher die Beispielmenge, E, in eben soviele Teilmengen mit je
einem Element. In diesem Fall ist die bedingte mittlere Information
n
1
n H(0; 1) = 0 bit
I(E
|
PIN bekannt) =
i=1
der Informationsgewinn also maximal. Fur die Diagnose selbst jedoch ist das Attri-
but PIN nutzlos.
Quinlan's verbessertes System C4.5 [187] benutzt statt des absoluten Informa-
tionsgewinns einen normierten Informationsgewinn
gain (a)
split info (a)
gain ratio (a)=
wobei split info (a) die Entropie des Attributes a ist
k
split info (a)=H(a)=−
P (a = w i )log 2 P (a = w i )
i=1
(vgl. die Gleichung (A.14), S. 503) und wir annehmen, dass split info (a)
=0ist.
Ist namlich split info (a) = 0, so kommt die Variable in der Beispielmenge nur mit
einem Wert vor, tragt also nichts zur Entscheidungsfindung bei.
Search WWH ::




Custom Search