Databases Reference
In-Depth Information
gen und Ausreißern. Einen Überblick über mögliche Probleme hinsichtlich der Datenqualität
geben Rahm/Do (2000, 4-6) und klassifizieren diese wie in Abbildung 3-6 ersichtlich. Dabei
unterscheiden sie zwischen Single-Source-Problemen und Multi-Source-Problemen sowie
zwischen schema- und instanzbezogenen Problemen.
Datenqualitätsprobleme
Probleme mit einer Quelle
Probleme mit mehreren Quellen
Schema Level
Instanz Level
Schema Level
Instanz Level
Mangel an
Integritätsbedingungen,
dürftiges Schemadesign
Fehler bei der
Datenerfassung
Heterogene
Datenmodelle und
Schema Designs
Überschneidungen,
Widersprüche und
Inkonsistenzen bei
Daten
• Einzigartigkeit
• Referentielle Integrität
•…
• Rechtschreibfehler
• Redundanz /
Duplikate
• Widersprüchliche
Werte
•…
• Konflikte bei der
Namensgebung
• Strukturelle Konflikte
•…
• Inkonsistente
Aggregation
• Inkonsistenter Takt
•…
Abbildung 3-6:
Klassifikation der Datenqualitätsprobleme in Datenquellen
(Quelle: Eigene Darstellung in Anlehnung an (Rahm/Do 2000, 5))
Frawley/Piatetsky-Shapiro/Matheus (1992, 62) sehen die Ursache der Probleme darin, dass es
sich bei Datenbanken aus der Realität um dynamische, unvollständige, mit Fehlern behaftete
und große Datensätze handelt. Dynamische Daten sind zeitabhängig und wechseln ihre
Merkmalsausprägung und beeinflussen somit die Ergebnisse der Analyse. Ebenso werden bei
der Bereinigung irrelevante Datenfelder aus den Betrachtungen ausgeschlossen. Die Relevanz
ist jedoch immer abhängig vom Fokus der zu untersuchenden Fragestellungen. Als Beispiel
nennen Frawley/Piatetsky-Shapiro/Matheus (1992, 62) die Ausprägung einer Patientenakte
bezüglich des Attributs Schwangerschaft. Bei Untersuchungen die männliche Patienten be-
treffen sind diese Daten irrelevant, bei Frauen jedoch von essentieller Bedeutung. Die Wir-
kung unvollständiger Daten auf die Analyse muss ebenso untersucht werden um
herauszufinden, ob man z. B. in solchen Fällen die Merkmalsausprägung auf einen default-
Wert setzen kann.
Die Ausreißererkennung ist ein weiterer Schritt innerhalb dieser Phase. Eine sehr weit ver-
breitete und intuitive Definition für Ausreißer gibt ((Hawkins 1980) zitiert in
Koufakou/Georgiopoulos (2010, 262)). Demnach handelt es sich dabei um "[…] eine Be-
obachtung, die so stark von anderen Beobachtungen abweicht, dass sie Verdacht erregt, durch
einen anderen Mechanismus generiert worden zu sein.". Oftmals werden Ausreißer als Rau-
schen betrachtet und somit nicht mit in die Betrachtung einbezogen (Koufakou/Georgiopoulos
Search WWH ::




Custom Search