Databases Reference
In-Depth Information
Ansätze von Hearst (1999, 3) und Merkl (2000, 3) gehen in die Richtung der Entdeckung re-
levanter und vorher unbekannter Informationen und werden als Text Data Mining bezeichnet.
Ein dem KDD-Prozess von Fayyad/Piatetsky-Shapiro/Smyth (1996a, 41) inhaltlich gleicher,
jedoch auf Textdaten bezogener Ansatz zu Analyse wird von Losiewicz/Oard/Kostoff (2000,
101) als Textual Data Mining bezeichnet. Eine umfassende und weitreichendere Definition
liefern Leong/Ewing/Pitt (2004, 188), wonach Text Mining als Spezialgebiet des KDD ein
computerunterstützer Prozess zum extrahieren nützlicher Informationen aus großen Mengen
von digitalen Inhalten ist. "Low-Level-Daten" werden durch Transformierung und durch das
Erkennen bedeutungsvoller Themen in inhaltreichere Daten verwandelt.
Shehata/Karray/Kamel (2010, 1361), Hofman-Apitius/Younesi/Kasam (2009, 506) und Bose
(2008, 156, 2009, 523) bezeichnen das Ziel des Text Mining ebenso als den Versuch des Fin-
dens von Neuen zuvor unbekannten Informationen durch Techniken des Natural Language
Processing und Data Mining. Auch aus Sicht von Herschel/Jones (2005, 47) und Kodratoff
(1999, 22) beziehen sich Text Mining und KDT allgemein auf das Verfahren der Extraktion
interessanter und nicht-trivialer Informationen und Wissen aus unstrukturierten Texten.
Shi/Kong (2009, 4167) definieren Text Mining als die natürliche Erweiterung von Data Mi-
ning in Richtung unstrukturierter und halbstrukturierter Textdaten und betonen dabei den Pro-
zess der Erforschung von Erkenntnissen. Einen zusammenfassenden Vergleich zwischen Text
Mining, Information Retrieval, Information Extraction, Data Mining und Natural Language
Processing haben Qi/Zhang (2009, 399) vorgestellt (siehe Tabelle 3-6).
Fachrichtung
Eigenschaften
Unterschied zum Text Mining
Text Mining
Entdeckung bisher unbekannter
Informationen in Textquellen
-
Information
Retrieval
Finden von benötigten Informationen,
die bereits in Datenbanken enthalten
sind
Entdeckung und Extrahierung
von zuvor nicht bekanntem
Wissen
Information
Extraction
Extraktion strukturierter/n
Daten/Wissens aus frei verfügbaren
Textquellen
Entdeckung und Extrahierung
von zuvor nicht bekanntem
Wissen
Data Mining
Hauptsächlich Fokus auf strukturierte
Daten
Hauptsächlicher Fokus auf
strukturierte Daten
Natural Language
Processing
Verstehen der Bedeutung ganzer
Texte
Konzentration auf die Lösung
domänenspezifischer Prozesse
Tabelle 3-6:
Vergleich zwischen Text Mining, Information Retrieval, Information
Extraction, Data Mining und Natural Language Processing
(Quelle: (Qi/Zhang 2009, 399))
Es stellt sich aus diesen Ausführungen nun die Frage, was Text Mining leisten und aus wel-
chen Bereichen einer Organisation Wissen extrahiert werden kann. Heyer/Quasthoff/Wittig
(2006, 2) zählen unter anderem die Domänen Produktherstellung, Erkennung von Technolo-
gietrends, Dienstleistungsangebot sowie Marktanalysen auf. Daraus können dann ihrer An-
sicht nach durch Text Mining relevante und spezifische Fachausdrücke identifiziert werden,
Search WWH ::




Custom Search