Databases Reference
In-Depth Information
Zusammenfassend wird ein Tupel somit nur dann als konsistent hinsichtlich der
Regelmenge
betrachtet, falls alle Regeln erfüllt werden (
r
s
(
T
) = 0
r
s
). Ansons-
ten ergibt sich
Q
Kons.
(
T
,
) zu null, egal ob eine Regel oder mehrere verletzt werden
(
Қ
r
s
:
r
s
(
T
) = 1). Als Konsistenzregeln auf Tupelebene sind dabei neben denen,
die bereits auf Attributwertebene zulässig sind, zusätzlich attributübergreifende
Regeln und Zusammenhänge wie z. B. (
Aktuelles Datum
-
Geburtsdatum
< 16 Jahre)
(
Familienstand
= „ledig“) denkbar.
Die Messung der Konsistenz kann wiederum direkt mit Hilfe obiger Metrik in
Verbindung mit entsprechenden SQL-Abfragen zur Prüfung der Konsistenzregeln
erfolgen. Die Regeln auf Attributwert- und Tupelebene können dabei unter ande-
rem unter Einbeziehung der Fachseiten auf Basis von Wertebereichen, Geschäfts-
regeln und logischen Zusammenhängen generiert werden.
Im folgenden Abschnitt wird die Metrik für die DQ-Dimension Aktualität entwi-
ckelt.
1.4.4 Metrik für die DQ-Dimension Aktualität
Unter Aktualität wird hier die Eigenschaft der Gegenwartsbezogenheit des Daten-
bestandes verstanden, d. h., inwiefern die im System erfassten Werte den aktuellen
Gegebenheiten in der Realwelt entsprechen und nicht veraltet sind. Die Überprü-
fung basiert dabei - im Gegensatz zur Fehlerfreiheit - auf wahrscheinlichkeitstheo-
retischen Betrachtungen, um eine automatisierte Messung zu ermöglichen. Aktua-
lität kann in diesem Zusammenhang als jene Wahrscheinlichkeit interpretiert wer-
den, mit welcher die untersuchten Datenwerte noch aktuell sind. In dieser Inter-
pretierbarkeit liegt auch der Vorteil der entwickelten Metrik im Vergleich zu exis-
tierenden Metriken, bei denen eine (wahrscheinlichkeitstheoretische) Interpretati-
on der resultierenden Werte nicht möglich ist bzw. nicht vorgenommen wird. Die
Metrik für Aktualität wird nur für die Attributwertebene vorgestellt, ist jedoch -
analog zu oben - auch auf den anderen Ebenen definiert.
Sei
A
ein Attribut,
w
ein entsprechender Attributwert im Informationssystem und
Alter
(
w
,
A
) das Alter des Attributwertes, das sich aus dem Zeitpunkt der Messung
und dem Zeitpunkt der Datenerfassung errechnen lässt. Des Weiteren sei
Verfall
(
A
)
die (ggf. empirisch ermittelte) Verfallsrate von Werten des Attributs
A
. Diese gibt
den Anteil an Datenwerten des entsprechenden Attributs an, der durchschnittlich
innerhalb einer Zeiteinheit inaktuell wird. Dann stellt sich die Metrik für Aktualität
auf Attributwertebene wie folgt dar:
Q
Akt
w
,
A
:
exp
(
Verfall
(
A
)
Alter
(
w
,
A
))
.
Unter der Annahme, dass die Gültigkeitsdauer der zugrunde liegenden Datenwer-
te exponentialverteilt mit dem Parameter
Verfall
(
A
) ist, stellt der Wert
Q
Akt.
(
w
,
A
)
dabei die Wahrscheinlichkeit dar, mit welcher der vorliegende Attributwert
w
noch den aktuellen Gegebenheiten entspricht. Bei der Exponentialverteilung han-