Knowledge Discovery in Databases im Anwendungskontext Änderungsmanagement - Knowledge Discovery in Databases

Databases Reference

In-Depth Information

x Wenn bekannt ist, welche Gründe und Thematiken zu Änderungen führen, können diese

neuen Informationen zur besseren Planung und somit zur Verbesserung der Entwick-

lungsprozesse auch im Sinne eines Lessons Learned genutzt werden.

Somit ergibt sich als erster Schritt das Ziel, die vorhandenen Daten zu nutzen und mittels Me-

thoden des Data Mining und Text Mining ähnliche Änderungen zu gruppieren. Ein Ansatz der

dazu genutzt werden kann ist das in Kapitel 3.5.2.1 vorgestellte Clustern. In diesem Fall wird

es dazu genutzt, die Änderungsanträge anhand der textuellen Problembeschreibung zu grup-

pieren. Da es sich beim Clustern in diesem Fall um besonders rechenintensive Methoden han-

delt, wurde zu diesem Zweck ein Testdatensatz selektiert. Dieser beinhaltet 1.402

Änderungsanträge aus drei unterschiedlichen Entwicklungsprojekten, die jeweils drei Jahre

Entwicklungstätigkeit repräsentieren. Die Datenauswahl beinhaltet die Attribute Änderungs-

antragsnummer sowie die textuelle Problembeschreibung. Zur Berechnung der Cluster wur-

den die vier Methoden k-Means, k-Medoids, DBSCAN und Support Vector Clustering

angewendet.

Zu Beginn werden die Daten die die Änderungsantragsnummer, als auch die Problembe-

schreibung enthalten, importiert. In einem nächsten Schritt werden diese in das notwendige

Textformat umgewandelt und die in den Texten enthaltenen unterschiedlichen Schreibweisen

bezüglich der Umlaute usw. vereinheitlicht. Da in der deutschen Sprache Umlaute und das "ß"

verschiedene Schreibweisen haben, wurden alle diese Möglichkeiten mit Hilfe mehrerer Ope-

ratoren in ein einheitliches Format überführt. Dem folgt die Erstellung des Wortvektors in das

in Kapitel 3.6.4.2 beschriebene TF-IDF-Format. Dieser Schritt erfolgt im Operator Process

Documents from Data , in dem der in Abbildung 5-40 dargestellte Unterprozess modelliert ist.

In diesem Schritt werden zunächst alle Buchstaben in Kleinbuchstaben umgewandelt. Dann

werden die Texte eines Dokuments in eine Folge von Token geteilt, siehe Kapitel 3.6.3.1. Auf

Basis einer implementierten und einer zusätzlichen selbsterstellten Stoppwortliste werden

Wörter wie Artikel, Konjunktion, Präposition usw., die für die Analyse wenig bis keine Be-

deutung haben, entfernt. Dem folgt die Anwendung des Snowball Stemming-Algorithmus

(Porter 1980), der die Token auf ihre Stammform bringt.

Abbildung 5-40:

Unterprozess zur Erzeugung des Wortvektors

(Quelle: Eigene Darstellung)

Der Datenanalyseprozess ist in Abbildung 5-41 dargestellt. Für die jeweilige Clustering-

Methode wurde jeweils der dazugehörige Operator eingefügt.

Search WWH ::

Custom Search

Home