Information Technology Reference
In-Depth Information
Kapitel 21
Fuzzy-Clusteranalyse
21.1 Clusteranalyse
Das Ziel der Clusteranalyse besteht darin, einen gegebenen Datensatz so in Gruppen
( Cluster )aufzuteilen,dassähnlicheObjektedesDatensatzesdemselbenClusterund
sehr verschiedene Objekte unterschiedlichen Clustern zugeordnet werden.
Selbstorganisierende Karten, die bereits in Kapitel 7 vorgestellt wurden, können
als ein spezielles Clustering-Verfahren angesehen werden. Die Ausgabeneuronen re-
präsentieren die Cluster. Ein Datenobjekt wird dem Cluster bzw. Ausgabeneuron
zugeordnet, dessen Ausgabe 1 ergibt, wenn man das Datenobjekt als Eingabe für
die selbstorganisierende Karte verwendet.
Der c -Means-Clustering-Algorithmus 1 verfolgt ein ähnliches Ziel wie die selbst-
organisierenden Karten. Ein gegebener q -dimensionaler Datensatz X
R q soll in
c Cluster aufgeteilt werden und die Cluster werden jeweils durch einen Prototy-
pen v i
R q ( i {1, . . . , c })repräsentiert.VergleichtmandiesenAnsatzmitden
selbstorganisierenden Karten, so entsprechen die Prototypen den Ausgabeneuronen
und die Koordinaten eines Prototypen den Gewichten, die die Eingabeneuronen mit
dem entsprechenden Ausgabeneuron verbinden. Auch die Zuordnung der Daten
zu den Prototypen erfolgt beim c -Means-Clustering nach dem „winner takes all“-
Prinzip: Ein Datenobjekt wird dem Prototypen zugeordnet, dem es am ähnlichsten
ist, d. h. zu dem es den geringsten Abstand besitzt. Es gibt allerdings zwei wesentli-
che Unterschiede zwischen dem c -Means-Clustering-Algorithmus und den c -Means-
Clustering-Algorithmus
• Beim c -Means-Clustering-Algorithmus gibt es keine Nachbarschaftsstruktur
zwischen den Prototypen.
• Die Neuberechnung der Prototypen erfolgt nicht jeweils bei jedemDatenobjekt
einzeln, sondern jeweils für den gesamten Datensatz, indem jeder Prototyp als
Schwerpunkt der Daten berechnet wird, die ihm zugeordnet sind.
Der c -Means-Clustering-Algorithmus läuft nach dem folgenden Muster ab:
1 Im Kontext des klassischen c -Means-Algorithmus verwendet man üblicherweise den Buchstaben k
statt c .DerBuchstabe c wird in der Regel beim Fuzzy-Clustering benutzt.
Search WWH ::




Custom Search