Databases Reference
In-Depth Information
che Unterschied zwischen Data Mining und Text Mining besteht in der Beschaffenheit der
Daten. Während Data Mining mit strukturierten Daten operiert, bilden beim Text Mining un-
strukturierte Daten in Form von Texten die Analysebasis (vgl. Kapitel 3.4) (Chen/Nayak
2007, 1; Witten/Frank 2005, 9, 351). Nach Tan (1999, 1) stellt die gewöhnlichste Form der
Informationsspeicherung die des Textes dar, so dass bis zu 80 % der Informationen in Organi-
sationen als unstrukturierte Daten vorliegen. Dies verdeutlicht das hohe Potential der Analyse
unstrukturierter Daten zur Wissensgenerierung. Durch die Vernetzung extrahierter Informati-
onen können nützliche Erkenntnisse und Hypothesen generiert werden (Hearst 2003). Auch
wenn Text Mining aufgrund der mit Unschärfe behafteten Texte als Analysebasis eine kom-
plexere Aufgabe darstellt, kann es sinnvoll in den Untersuchungsprozess integriert werden
(Chen/Nayak 2007, 2; Tan 1999, 1).
3.2
Definition und Abgrenzung des KDD
Das Knowledge Discovery in Databases kann als relativ junge Forschungsdisziplin angesehen
werden. Der Begriff KDD hat seinen Ursprung im ersten KDD-Workshop, der im Jahre 1989
stattfand (Cai/Jian-Tao 2009, 3061). Es waren jedoch Fayyad/Piatetsky-Shapiro/Smyth
(1996a), die 1996 erstmalig eine treffende Definition lieferten: "Wissensentdeckung in Da-
tenbanken ist der nichttriviale Prozess der Identifikation gültiger, neuer, potentiell nützlicher
und schlussendlich verständlicher Muster in (großen) Datenbeständen." (Fayyad/Piatetsky-
Shapiro/Smyth 1996a, 40f.). Beierle/Kern-Isberner (2008, 144) gehen in dieselbe Richtung
und beschreiben den Prozess mit dem Ziel, "[...] neues, nützliches und interessantes Wissen
aus Daten herauszufiltern und in verständlicherer Form zu präsentieren.".
KDD ist ein interdisziplinäres Fachgebiet, das sich auch Methoden und Technologien aus
verschiedenen angrenzenden und überschneidenden Fachbereichen bedient. Bereiche, die mit
KDD in Beziehung stehen, sind unter anderem das Wissensmanagement, das maschinelle
Lernen, die Computerlinguistik, die künstliche Intelligenz, Statistik- und Wahrscheinlich-
keitsrechnung, Datenbank- und Informationssysteme, Information Retrieval, Data Mining und
Text Mining u. a. 6 . Eine Auswahl dieser Fachgebiete wird in den nachfolgenden Abschnitten
dargestellt.
3.2.1
Wissensmanagement
Die Zusammenhänge der zentralen Begriffe des Wissensmanagements wie Zeichen, Daten,
Informationen und Wissen sowie deren Zusammenhänge werden in Rehäuser/Krcmar (1996,
6) beschrieben und dargestellt (siehe Abbildung 3-1). Demnach bildet der Zeichenvorrat
(Buchstaben und Ziffern) die Grundlage, die durch die Einbettung in eine Syntax in Daten
übergehen. Informationen wiederum entstehen, wenn Daten in einem Kontext stehen. Falls
Daten und Informationen miteinander vernetzt, transformiert und verbreitet werden, spricht
man im Allgemeinen von Wissen.
6 (Gao/Chang/Han 2005, 111; Hippner/Rentzmann 2006, 287; Hotho/Nürnberger/Paaß 2005, 19;
Otte/Otte/Kaiser 2004, 22; Radovanovic/Ivanovic 2008, 227; Renz/Franke 2003, 2; Siegmund
2006, 43)
Search WWH ::




Custom Search