Databases Reference
In-Depth Information
standteil desselben Clusters sind. Datenpunkte, welche keinem Cluster angehören, werden
Rauschen genannt (Jian/Wei/Bao Ping 2009). Eps und MinPts sind willkürliche Argumente
des Algorithmus. Verbesserungen und Erweiterungen des ursprünglichen Algorithmus von
Ester et al. (1996, 6) haben sich als effizienter erwiesen (Chen/Gao/Li 2010). Außerdem be-
rücksichtigen sie stärker Randbedingungen (Huang et al. 2009) oder zeigen sich als geeigne-
ter für ungewisse Datenpunkte (Tepwankul/Maneewongvatana 2010, 92).
3.5.2.2 Verfahren auf Basis von Künstlichen Neuronalen Netzen
Das Clustering mit dem Support Vektor Clustering (SVC) Algorithmus wurde vom Konzept
der Support-Vektor-Maschinen von Ben-Hur et al. 2001 abgeleitet (Ben-Hur et al. 2002, 125-
137). Der Aufbau einer Support-Vektor-Maschine beginnt mit der Wahl eines Testdatensat-
zes, bei dem alle Datenpunkte eine bekannte binäre Klassifikation aufweisen. Jeder Daten-
punkt ist durch einen p -dimensionalen Vektor x definiert, welcher seine Parameterwerte
repräsentiert. Die Aufgabe der Support-Vektor-Maschine ist im nächsten Schritt eine (p-1) -
dimensionale Hyperebene zu finden, die beide Klassen derart voneinander trennt, dass der
Abstand zwischen der Klasse und dem naheliegendsten Datenpunkt auf jeder Seite maximiert
ist. Solche Datenpunkte die wiederum am nächsten zur Hyperebene liegen, werden als Sup-
port-Vektoren bezeichnet. Alle anderen Datenobjekte haben keinen Einfluss auf die Lage der
Ebene (Pal/Mitra 2004, 86).
Manchmal ist es nicht möglich diesen beiden Klassen linear zu trennen (Pal/Mitra 2004, 87).
In diesem Fall können nur verdrillte Hyperebenen in dem ursprünglichen Raum gefunden
werden. Um dennoch die Aufgabe der Identifizierung einer Hyperebene auszuführen, wird der
ursprüngliche Raum in einen besser geeigneten Merkmalsraum durch Anwendung von Funk-
tionen wie x=(x_1,…,x_p )→ϕ(x)=(ϕ_1 (x),…,ϕ_d (x)) überführt. In diesem Augenblick hat
der Merkmalsraum nicht unbedingt die gleiche Dimensionalität wie der Ursprungsraum mehr
(p ≠ d) . Abbildung 3-10 stellt eine solche Zuordnung, bei der die Datenpunkte nicht durch
eine lineare Funktion des Ursprungsraumes getrennt werden können, jedoch Teil des Merk-
malsraums sein können, dar.
Abbildung 3-10:
A feature map can simplify the classification task
(Quelle: (Cristianini/Shawe-Taylor 2003, 28))
Generell ist das Clustern durch die Verwendung von Hyperebenen in hochdimensionalen
Merkmalsräumen (d>>p) einfacher. Das Mapping eines Ursprungsraumes zu einem hochdi-
Search WWH ::




Custom Search