Databases Reference
In-Depth Information
Nutzen von KDD
Die Analyse der Problembeschreibungen auf Ähnlichkeiten setzt einige Schritte zur Datenbe-
reinigung, Datenvorverarbeitung und Datentransformation voraus. Diese sind mittels der Me-
thoden des KDD geeignet auf den Datensatz anwendbar. Nach diesen Schritten können
gewünschte Clustering-Verfahren angewendet werden, die die Anträge gruppieren. Dabei hat
sich der k-Means-Algorithmus als die bezüglich der Ergebnisse und der notwendigen Re-
chenzeit geeignetste Methode erwiesen.
Die Schwäche der Ergebnisse drückt sich in der Anzahl der gefundenen Cluster, als auch in
der Anzahl der darin enthaltenen Anträge aus. Diese ist im Vergleich zum untersuchten Da-
tensatz relativ gering. Ein Grund liegt sicherlich in der Heterogenität der Problembeschrei-
bungen. Diese enthalten viele denkbare Änderungswünsche und -notwendigkeiten und sind
daher auch schwierig zu gruppieren. Hier sollte der Einsatz von domänen- oder unterneh-
mensspezifischen Wörterbüchern geprüft werden, um die Qualität der Auswertungen zu erhö-
hen.
Weiterer Forschungsbedarf
Auf Basis des modellierten Analyseprozesses sollten weitere Schritte zur Verbesserung der
Untersuchungsergebnisse unternommen werden. Dazu sind mehrere Möglichkeiten denkbar.
Zum einen kann die Analyse auf Basis von Änderungsanträgen erfolgen, die denselben Be-
gründungscode haben und thematisch bereits manuell einer Gruppierung unterzogen wurden.
Dies kann die Ergebnisqualität steigern und die Anzahl der gruppierten Anträge und die An-
zahl der Cluster erhöhen. Weiterhin ist der Einsatz von Wörterbüchern denkbar, um z. B. sy-
nonym verwendete Begrifflichkeiten zu normieren. Auch helfen sie dabei, Abkürzungen bei
der Analyse besser berücksichtigen zu können. Zu guter Letzt sollte auch der Beitrag unter-
schiedlicher Vektor- und Stemmingalgorithmen auf die Ergebnisqualität geprüft werden.
6.2.9
Kosinus-Ähnlichkeitsmaß der Problembeschreibungen
Analyseergebnisse
Eine Möglichkeit zur Bestimmung der thematischen Ähnlichkeiten zwischen Änderungsan-
trägen und somit zur Findung ähnlicher Problembeschreibungen wurde in Kapitel 5.6.9 erläu-
tert. Innerhalb des Text Mining-Prozesses wurde die Gleichheit zwischen den textuellen
Problembeschreibungen anhand des Kosinus-Ähnlichkeitsmaßes ermittelt. Dadurch erhält
man eine prozentuale Angabe über die Ähnlichkeit zwischen den jeweiligen Änderungen. Im
Gegensatz zum Clustering erhält man keine einzelnen Gruppen von ähnlichen Einheiten, son-
dern eine Liste, bei der jeder einzelne Text mit den anderen jeweiligen Texten verglichen
wird.
Handlungsempfehlungen
Die Berechnung der Ähnlichkeiten befähigt zur Identifikation von thematisch (teil-)analogen
Änderungssituationen und ermöglicht dadurch wiederum eine Analyse des Umgangs in vo-
rangegangenen Fällen. Dadurch sind eine Adaption und ein Lessons Learned möglich, was
Search WWH ::




Custom Search