Databases Reference
In-Depth Information
݌ ܣ ȁ ܤ ݌ሺܣ ሻή݌ሺܤȁܣ
σ ܲ൫ܣ
ήܲ൫ܤหܣ
௝ୀଵ
Im Falle der Klassifikation werden statt der Ereignisse A und B die Ereignisse "Objekt gehört
zur Klasse i " sowie "Objekt wird durch den Merkmalsvektor x beschrieben". Eingesetzt erhält
man dann
݌ ݅ ȁ ݔ ݌ሺ݅ሻή݌ሺݔȁ݅ሻ
σ ݌ሺ݌ሺ݆ሻήݔȁ݆ሻ
௝ୀଵ
Unter der Annahme, dass x ein Vektor von p stochastisch unabhängigen Merkmalen ist, so
gilt
݌ ݔ ȁ ݅ ൌෑ݌൫ݔ ሺ௞ሻ ห݅൯
௞ୀଵ
und durch Einsetzen erhält man schlussendlich den naiven Bayes-Klassifikator
௞ୀଵ
݌ ݅ ȁ ݔ ݌ሺ݅ሻής ݌൫ݔ ሺ௞ሻ ห݅൯
௞ୀଵ
௝ୀଵ
ής ݌ሺݔ ȁ݆ሻ
σ ݌ሺ݆ሻ
Hierdurch bekommt man für jeden gegebenen Merkmalsvektor die Wahrscheinlichkeit zur
Zugehörigkeit des Datenobjekts zu allen einzelnen Klassen. In der Praxis wird der Naïve-
Bayes-Klassifikator z. B. zur Spam-Detection benutzt.
3.5.3.2 Klassifizierung mittels Entscheidungsbäumen
Die Klassifizierung mit Hilfe von Entscheidungsbäumen wurde in seiner im KDD genutzten
Form erstmalig 1986 von Quinlan ((Quinlan 1986, 81-106), vgl. auch (Quinlan 1987, 221-
234, 1996, 71-72)) beschrieben. Diese Methode erlaubt eine Klassifikation der Datenobjekte
durch hierarchische Klassifizierung. Dabei stellen die Entscheidungsbäume ein System von
hierarchisch angeordneten Knoten dar, die durch Kanten miteinander verbunden sind
(Nisbet/Elder/Miner 2009, 241; Petersohn 2005, 136). Runkler (2010, 99) beschreibt auf wel-
cher Idee ein Entscheidungsbaum basiert.
Eine Klassifikation soll derart durchgeführt werden, dass die Reihenfolge der Wichtigkeit der
einzelnen Merkmale die Überprüfungsschritte vorgibt und die Zugehörigkeit eines Objekts zu
einer Klasse immer weiter eingeschränkt wird. Bevor die Datenobjekte jeweils einer Klasse
zugeordnet werden können, muss zuvor eine solche Hierarchiestruktur erzeugt werden. Eine
Möglichkeit ist das Heranziehen eines Testdatensatzes (Petersohn 2005, 136), bei dem jedes
Objekt ݋ (j=1,…,n) durch seine Attribute ܽ (i=1,…,m) und deren Ausprägungen mit ihrer
jeweiligen Zugehörigkeit zur Klasse ݇ (r=1,…c) dargestellt wird. Als Blatt bezeichnet man
dann in diesem Fall den Knoten, wenn die Ausprägungen der Teilmengen in disjunkte Teil-
mengen aufgespalten sind und jede Teilmenge lediglich Objekte einer einzigen Klasse enthält.
Search WWH ::




Custom Search