Databases Reference
In-Depth Information
x Wenn bekannt ist, welche Gründe und Thematiken zu Änderungen führen, können diese
neuen Informationen zur besseren Planung und somit zur Verbesserung der Entwick-
lungsprozesse auch im Sinne eines Lessons Learned genutzt werden.
Somit ergibt sich als erster Schritt das Ziel, die vorhandenen Daten zu nutzen und mittels Me-
thoden des Data Mining und Text Mining ähnliche Änderungen zu gruppieren. Ein Ansatz der
dazu genutzt werden kann ist das in Kapitel 3.5.2.1 vorgestellte Clustern. In diesem Fall wird
es dazu genutzt, die Änderungsanträge anhand der textuellen Problembeschreibung zu grup-
pieren. Da es sich beim Clustern in diesem Fall um besonders rechenintensive Methoden han-
delt, wurde zu diesem Zweck ein Testdatensatz selektiert. Dieser beinhaltet 1.402
Änderungsanträge aus drei unterschiedlichen Entwicklungsprojekten, die jeweils drei Jahre
Entwicklungstätigkeit repräsentieren. Die Datenauswahl beinhaltet die Attribute Änderungs-
antragsnummer sowie die textuelle Problembeschreibung. Zur Berechnung der Cluster wur-
den die vier Methoden k-Means, k-Medoids, DBSCAN und Support Vector Clustering
angewendet.
Zu Beginn werden die Daten die die Änderungsantragsnummer, als auch die Problembe-
schreibung enthalten, importiert. In einem nächsten Schritt werden diese in das notwendige
Textformat umgewandelt und die in den Texten enthaltenen unterschiedlichen Schreibweisen
bezüglich der Umlaute usw. vereinheitlicht. Da in der deutschen Sprache Umlaute und das "ß"
verschiedene Schreibweisen haben, wurden alle diese Möglichkeiten mit Hilfe mehrerer Ope-
ratoren in ein einheitliches Format überführt. Dem folgt die Erstellung des Wortvektors in das
in Kapitel 3.6.4.2 beschriebene TF-IDF-Format. Dieser Schritt erfolgt im Operator Process
Documents from Data , in dem der in Abbildung 5-40 dargestellte Unterprozess modelliert ist.
In diesem Schritt werden zunächst alle Buchstaben in Kleinbuchstaben umgewandelt. Dann
werden die Texte eines Dokuments in eine Folge von Token geteilt, siehe Kapitel 3.6.3.1. Auf
Basis einer implementierten und einer zusätzlichen selbsterstellten Stoppwortliste werden
Wörter wie Artikel, Konjunktion, Präposition usw., die für die Analyse wenig bis keine Be-
deutung haben, entfernt. Dem folgt die Anwendung des Snowball Stemming-Algorithmus
(Porter 1980), der die Token auf ihre Stammform bringt.
Abbildung 5-40:
Unterprozess zur Erzeugung des Wortvektors
(Quelle: Eigene Darstellung)
Der Datenanalyseprozess ist in Abbildung 5-41 dargestellt. Für die jeweilige Clustering-
Methode wurde jeweils der dazugehörige Operator eingefügt.
Search WWH ::




Custom Search