Knowledge Discovery in Databases - Knowledge Discovery in Databases - page 79

Databases Reference

In-Depth Information

liegt darin, dass die Daten als Frequent-Pattern-Tree dargestellt werden und daraus die

frequent itemsets extrahiert werden. So werden dazu in einem ersten Datenbankdurchlauf häu-

fige 1-Itemmengen gefunden, welche danach mit einer absteigenden Häufigkeit sortiert wer-

den (Gama 2010, 100). Dann wird ein erneuter Datenbankdurchlauf durchgeführt, um den

Frequent-Pattern-Tree zu konstruieren 8 . Das folgende Beispiel stellt das Vorgehen ausgehend

von einer Datenbank mit Transaktionen dar, siehe Tabelle 3-5.

ID Transaktion

Gekaufte Items

Häufige Items (sortiert)

100

f, a, c, d, g, i, m, p

f, c, a, m, p

200

a, b, c, f, l, m, o

f, c, a, b, m

300

b, f, h, j, o

f, b

400

b, c, k, s, p

c, b, p

500

a, f, c, e, l, p, m, n

f, c, a, m, p

Tabelle 3-5:

Beispielhafte Transaktionsdatenbank

(Quelle: (Han/Pei/Yin 2000, 3))

Dazu wurden die frequent items mit einem minimalen Support von drei ermittelt und sortiert

in der letzten Spalte dargestellt. Der daraus abgeleitete Frequent-Pattern-Tree gestaltet sich

dann wie in Abbildung 3-12 dargestellt. Dazu wurden Pfade erstellt, die aus den Items beste-

hen. Wenn ein Item bereits vorkam, wird der Zähler erhöht, ansonsten verzweigt sich der Pfad

baumartig.

root

Header table

f: 4

c: 1

item

head of node-links

f

c

a

b

m

p

c: 3

b: 1

b: 1

a: 3

p: 1

b: 1

m: 2

p: 2

m: 1

Abbildung 3-12:

Auf dem Beispiel basierender Frequent-Pattern-Tree

(Quelle: (Han/Pei/Yin 2000, 4))

3.6

Methoden des Text Mining

Wie in Kapitel 3.4 beschrieben, werden beim Text Mining unstrukturierte Daten, nämlich

Text, untersucht. Einige der Methoden des Data Mining können auch bei der Analyse von

8 (Ceglar/Roddick 2006, 17; Han/Pei/Yin 2000, 3-7; Hipp/Güntzer/Nakhaeizadeh 2000, 61;

Zhang/Liao/Zhao 2008, 316)

Next Page

Knowledge Discovery in Databases

Search WWH ::

Custom Search

Home