Databases Reference
In-Depth Information
liegt darin, dass die Daten als Frequent-Pattern-Tree dargestellt werden und daraus die
frequent itemsets extrahiert werden. So werden dazu in einem ersten Datenbankdurchlauf häu-
fige 1-Itemmengen gefunden, welche danach mit einer absteigenden Häufigkeit sortiert wer-
den (Gama 2010, 100). Dann wird ein erneuter Datenbankdurchlauf durchgeführt, um den
Frequent-Pattern-Tree zu konstruieren 8 . Das folgende Beispiel stellt das Vorgehen ausgehend
von einer Datenbank mit Transaktionen dar, siehe Tabelle 3-5.
ID Transaktion
Gekaufte Items
Häufige Items (sortiert)
100
f, a, c, d, g, i, m, p
f, c, a, m, p
200
a, b, c, f, l, m, o
f, c, a, b, m
300
b, f, h, j, o
f, b
400
b, c, k, s, p
c, b, p
500
a, f, c, e, l, p, m, n
f, c, a, m, p
Tabelle 3-5:
Beispielhafte Transaktionsdatenbank
(Quelle: (Han/Pei/Yin 2000, 3))
Dazu wurden die frequent items mit einem minimalen Support von drei ermittelt und sortiert
in der letzten Spalte dargestellt. Der daraus abgeleitete Frequent-Pattern-Tree gestaltet sich
dann wie in Abbildung 3-12 dargestellt. Dazu wurden Pfade erstellt, die aus den Items beste-
hen. Wenn ein Item bereits vorkam, wird der Zähler erhöht, ansonsten verzweigt sich der Pfad
baumartig.
root
Header table
f: 4
c: 1
item
head of node-links
f
c
a
b
m
p
c: 3
b: 1
b: 1
a: 3
p: 1
b: 1
m: 2
p: 2
m: 1
Abbildung 3-12:
Auf dem Beispiel basierender Frequent-Pattern-Tree
(Quelle: (Han/Pei/Yin 2000, 4))
3.6
Methoden des Text Mining
Wie in Kapitel 3.4 beschrieben, werden beim Text Mining unstrukturierte Daten, nämlich
Text, untersucht. Einige der Methoden des Data Mining können auch bei der Analyse von
8 (Ceglar/Roddick 2006, 17; Han/Pei/Yin 2000, 3-7; Hipp/Güntzer/Nakhaeizadeh 2000, 61;
Zhang/Liao/Zhao 2008, 316)
Search WWH ::




Custom Search