Information Technology Reference
In-Depth Information
dieser Wert hoch ist, besteht eine gewisse Chance, dass der Zusammenhang, den die Re-
gel vermuten lässt, nicht zufälliger Natur ist, sondern einen Zusammenhang wiedergibt.
Wenn hingegen die Regel im Extremfall nur auf einen einzigen Datensatz zutrifft, ist die
Aussagekraft praktisch Null. Formal lässt sich dieser Zusammenhang des Supports wie
folgt auszudrücken: s(X ∪ Y, D). Trotz eines hohen Supports kann eine Regel dennoch
unbrauchbar sein, nämlich dann, wenn die Folgerung nicht abgesichert ist. Betrachtet man
nun alle Fälle, in denen der „Wenn-Teil“ identisch ist, so muss der Anteil der Fälle, für
die die Assoziationsregel zutrifft, hoch sein, wobei idealtypisch dieser Anteil dann 100 %
beträgt. Da man allerdings in der Praxis immer mit Ausreißern rechnen muss, wird man
auch etwas kleinere Anteile zulassen. Man bezeichnet dies als Confidence . Ein weiteres
Kriterium für die Brauchbarkeit einer Assoziationsregel ist die sogenannte „news value“,
also sozusagen der Neuigkeitswert. Dabei gilt, dass Regeln, die Selbstverständlichkeiten
ausdrücken, im Regelfall nicht von großem Interesse sind. Gesucht sind also Regeln, die
weder uninteressant (wahrscheinlich bei hohem Support) noch unwahrscheinlich (was zu
vermuten wäre bei niedrigem Support) sind, deren Confidence aber hoch ist. Ein weiteres
Kriterium ist „Coverage“ und es bezeichnet das Verhältnis s(X ∪ X, D)/s(Y, D), also den
Anteil des Eintretens von Y, der durch X erklärt werden kann. Auch hier ist ein hoher Wert
ein Indiz für die Adäquatheit bzw. Angemessenheit der Regel.
Die üblicherweise verwendeten Verfahren generieren nun Assoziationsregeln, indem
alle möglichen Zusammenstellungen untersucht werden. Dabei werden Regeln, deren
Werte für Support und Confidence eine Nichtangemessenheit signalisieren, aus dem Ver-
fahren ausgeschlossen. Ein intelligentes Verfahren zeichnet sich demnach dadurch aus,
dass es ein möglichst effizientes Analysieren aller möglichen Regeln gewährleistet. Hin-
gegen wird von einem genetischen Algorithmus erwartet, dass er die Menge der mögli-
chen Regeln weniger systematisch, sondern vielmehr „kreativ“ durchsucht und dabei op-
timale Lösungen findet. Insofern gestaltet sich die Problemstellung für einen genetischen
Algorithmus derart, dass nicht das Optimum, sondern eher eine möglichst kleine Menge
von Regeln mit einer adäquaten Qualität gesucht wird.
Zur Entwicklung von Klassifikationsregeln mit Hilfe von genetischen Algorithmen ha-
ben sich unter anderem zwei Verfahren in der Praxis bewährt, die sich hinsichtlich der Be-
deutung, die sie den Individuen zuweisen, unterscheiden. So entspricht beim sogenannten
Michigan-Ansatz ein Individuum genau einer Regel, d. h. eine Population setzt sich aus
mehreren Regeln zusammen. Beim Pittsburgh-Ansatz hingegen umfasst ein einzelnes In-
dividuum einen ganzen Satz von Regeln. Für die Klassifikation ist der Pittsburgh-Ansatz
durchaus sinnvoll, denn dabei geht es in der Regel darum, mit dem ermittelten Regelsatz
jeden Anwendungsfall einordnen zu können. Entsprechend wichtig sind hierbei die Be-
ziehungsverhältnisse zwischen den einzelnen Regeln, die demnach auch die Fitness be-
stimmen. Hingegen stehen im Anwendungsfall dieses Abschnitts die Assoziationsregeln
im Fokus, d. h., dass nicht alle Zusammenhänge interessieren, sondern nach einzelnen
regelmäßigen Abhängigkeiten gesucht wird. Demnach reicht ein Michigan-artiger Ansatz
durchaus, zumal dessen Individuen sich deutlich weniger komplex gestalten. Dabei gilt es
Search WWH ::




Custom Search