Databases Reference
In-Depth Information
die Genauigkeit sowie die dazugehörigen Abweichungen berechnet. Die zehn Klassifizie-
rungsmethoden ergeben die in Tabelle 5-7 dargestellten Resultate.
Modell
Klassifizierungsmethode
Genauigkeit in %
+-
Pruning
Rang
1
ID3
68,3
7,1
Ja
4
2
ID3
68,1
7,2
Nein
6
3
C4.5
68,8
6,2
Ja
1
4
C4.5
68,5
7,4
Ja
3
5
C4.5
68,2
7,1
Nein
5
6
Naïve Bayes
51,7
18,9
-
10
7
Linear Regression
64,7
4,8
-
9
8
SVM
68,6
5,6
-
2
9
Logistic Regression
68,0
7,5
-
7
10
Linear Discriminant Analysis
67,6
7,9
-
8
Tabelle 5-7:
Vergleich der Ergebnisse verschiedener Methoden zur Klassifizierung von
Änderungsanträgen
(Quelle: Eigene Darstellung)
Die dargestellte Genauigkeit gibt an, wie groß der Anteil der korrekt eingruppierten Ände-
rungsanträge ist und wird aufgrund dessen als Gütemaß der Methode verwendet. Die genutz-
ten Methoden liegen dabei bis auf den Naïve-Bayes-Klassifikator nahezu gleichauf. Bei den
ersten fünf Modellen handelt es sich um Entscheidungsbaumverfahren, wobei der populäre
C4.5 mit Pruning den besten Wert erzielt hat. Das Pruning bezeichnet dabei die Reduktion des
Entscheidungsbaumes auf die wichtigsten Features durch Eliminierung der unwichtigen
Zweige. Das Ergebnis eines Entscheidungsbaumes ist in Abbildung 5-37 dargestellt.
Search WWH ::




Custom Search