Information Technology Reference
In-Depth Information
21.3 Bestimmung der Clusteranzahl
Bisher sind wir davon ausgegangen, dass die Anzahl c der Cluster bei der Cluster-
analyse vorher festgelegt wird. Soll die Anzahl der Cluster automatisch bestimmt
werden, gibt es zwei prinzipelle Ansätze:
1. Man verwendet ein globales Gütemaß, das das Gesamtergebnis der Cluster-
analyse bewertet. Eines von vielen solcher Gütemaße ist die Separation [Xi u.
Beni 1991]
k
j =1 u ij d ( w i x j )
c · min
i = t
c
i =1
S =
{ v i v t } 2 } ,
die den mittleren Abstand der Daten zu den ihnen zugeordneten Clustern im
Ve rhä l t n i s zum k l e i ns t en Ab s t and zwe i e r C l us t e r z en t r en b e t r a c h t e t . Ums o k l e i -
ner der Wert von S ,destobesseristdieClustereinteilung.ManbeginntdieClu-
steranalyse mit zwei Clustern bis hin zu einer Maximalzahl von gewünschten
Clustern und bestimmt jeweils den Wert S .ManwähltamEndedieClusteran-
zahl und -einteilung, für die S den kleinsten Wert ergeben hat.
2. Bei der Verwendung von lokalen Gütemaßen beginnt man mit einer eher zu
großen Anzahl von Clustern und wendet das Compatible Cluster Merging (CCM)
an [Krishnapuram u. Freg 1992]. Sehr kleine Cluster werden gelöscht, Cluster,
die sehr nahe beieinander liegen, verschmolzen, was zu einer verringerten An-
zahl der Cluster führt. Die Clusteranalyse wird dann wiederummit der verrin-
gerten Anzahl von Clustern durchgeführt. Dabei wird als Initialisierung das
Ergebnis verwendet, das man aus dem Löschungs- und Verschmelzungspro-
zess erhalten hat.
Einen genaueren Überblick über weitere Gütemaße und ihre Verwendung bei der
Bestimmung der Clusteranzahl gibt Höppner u. a. [1999].
21.4 Verallgemeinerungen von Fuzzy- c -Means
Der Fuzzy- c -Means-Algorithmus lässt sich in zwei Richtungen verallgemeinern. Die
quadratische euklidische Distanz kann durch andere Distanzen ersetzt werden. Die
Ve rwendung de r euk l i d i s c hen Di s t anz s e t z t im We s en t l i c hen vo r aus , da s s d i e C l u -
ster ungefähr kreis-, kugel- bzw. hyperkugelförmig sind und ungefähr die gleiche
Größe besitzen. Durch die Wahl einer anderen Distanzfunktion lassen sich andere
Clusterformen modellieren. Der Gustafson-Kessel-Algorithmus [Gustafson u. Kes-
sel 1979] berechnet für jedes Cluster zusätzlich eine positiv-definite, symmetrische
Matrix und eignet sich deshalb für ellipsoidförmige Cluster. Es gibt eine Reihe von
weiteren Algorithmen, die auf ganz unterschiedliche Clusterformen abgestimmt
sind. Im Prinzip hat die Anpassung der Clusterform nicht mit Fuzzy-Clustering zu
tun. Durch andere Clusterformen ändert sich nur die Gleichung (21.5) zur Berech-
nung der Prototypen. Die Gleichung (21.6) zur Berechnung der Zugehörigkeitsgra-
de bleibt davon unberührt. Weitere Beispiele für flexiblere Clusterformen auf Basis
Search WWH ::




Custom Search