Information Technology Reference
In-Depth Information
9.4.3
Data Mining und Regelfindung
Das Darstellen von Zusammenhängen innerhalb von Datensätzen durch sogenannte Re-
geln zählt auch zu den Anwendungsfeldern des Data Mining. Insofern entspricht diese
Problemstellung derjenigen der Diskriminanzanalyse, indem zwar auch hier die Zuord-
nung zu einer bestimmten Klasse durch die Attribute eines Datensatzes erklärt werden
soll, allerdings erfolgt diese Zuordnung nicht in Form einer Formel, sondern in Form von
Wenn-Dann-Aussagen.
In diesem Abschnitt soll erneut auf das Kreditwürdigkeits-Beispiel zurückgegriffen
werden. Eine Regel könnte sich dabei erneut wie folgt zusammensetzen: „Wenn das Ein-
kommen unter 2000 € liegt und der Kreditnehmer über keine weiteren Sparguthaben ver-
fügt, dann ist mit Schwierigkeiten bezüglich der Rückzahlung des Kredites zu rechnen“.
Oder aber es müssen Regeln gesucht werden, die nicht nur eine Gruppierungsvariable
erklären. Vielmehr kann der Wert jedes Attributs durch andere Attribute erklärt werden.
Dies könnte beispielsweise eine Assoziationsregel liefern: Wenn der Kreditnehmer unter
20 Jahren alt ist, dann ist sein Einkommen weniger als 2000 €. Letzteres lässt den Unter-
schied zwischen einer Klassifikations- und Assoziationsregel erkennen:
• Bei der Klassifikation gibt es festgelegte Klassifikationsvariablen, während Assoziati-
onsregeln jede Variable durch die anderen zu erklären versuchen. Insofern ist die Klas-
sifikation ein Spezialfall der Ableitung von Assoziationsregeln.
• Klassifikationsregeln werden so gebildet, dass alle Objekte mit ihnen einzuordnen sind
- insofern entspricht das Ergebnis der einer Diskriminanzanalyse. Assoziationsregeln
bilden hingegen nur einen Teil der Zusammenhänge ab. Ziel der Klassifikation ist also
eine umfassende Abbildung, das Kriterium ist „Brauchbarkeit“ der Zuordnung. Die
Ableitung von Assoziationsregeln hingegen beschränkt sich auf die Gewinnung von
„auffälligen“ Zusammenhängen, Kriterium ist hier die „Interessantheit“.
Auch eine solche Regelableitung lässt sich formalisieren: Man definiert hierzu eine Men-
ge I = {i 1 ,…, i k ) als die sogenannten „items“. Eine Transaktion T ist dann eine Teilmenge
von I, mehrere solcher Transaktionen bilden die Menge D, also die Gesamtheit der vor-
liegenden Datensätze. Eine Assoziationsregel ist dann eine Folgerung der Form X→Y
mit X ⊆ I, Y ⊆ I und X ∩ Y = Ø. Mit s(X, D) bezeichnet man den Anteil der Datensätze in
Bezug auf die Gesamtmenge, die X enthalten.
Diese formale Definition umfasst auch den Fall, wenn Assoziationsregeln anstelle
einer rein binären Codierung („trifft zu/trifft nicht zu“) und statt einfacher Items kate-
gorielle oder numerische Attribute in Beziehung zueinander und zu Konstanten gesetzt
werden. Man erhält damit keine Ja/Nein-Aussagen, sondern unter Umständen unendlich
viele Assoziationsmöglichkeiten. Umso mehr ist es notwendig, gewisse Maßzahlen für
deren Aussagekraft solcher Assoziationsregeln zu definieren. Dazu bieten sich die Kri-
terien der „support“ und „confidence“ an. Dabei bezeichnet der Support den Anteil der
Datensätze in Bezug auf den gesamten Datenbestand, für die die Regel zutrifft. Wenn
Search WWH ::




Custom Search