Databases Reference
In-Depth Information
5.4 Erweiterungen
Die Ergebnisse der Schritte Dublettenerkennung und Datenfusion hängen stark
davon ab wie gut die Daten in den einzelnen Datenfeldern strukturiert und stan-
dardisiert sind. Sowohl die Strukturierung als auch die Standardisierung der Da-
ten lassen sich durch geeignete Verfahren („data scrubbing“) verbessern. Diese
Verfahren erhöhen zum einen die Treffergenauigkeit bei der Dublettenerkennung,
zum anderen erweitern sie die Möglichkeiten der Datenfusion. Zusätzlich verbes-
sert sich die Datenqualität hinsichtlich der IQ-Dimensionen Übersichtlichkeit , Fehler-
freiheit , Aktualität und der Einheitlichkeit der Darstellung .
In den folgenden beiden Abschnitten wird kurz auf Strukturierung und Standardi-
sierung eingegangen. [Schmid, 2004] enthält eine ausführlichere Beschreibung der
Datenqualitätsprobleme, die sich dadurch beheben lassen.
5.4.1 Strukturierung
Eine schlechte Strukturierung liegt dann vor, wenn es falsch zugeordnete oder
eingebettete Werte gibt. Falsch zugeordnete Werte sind im falschen Datenfeld ab-
gelegt. Wenn sich beispielsweise der Vorname im Nachnamensfeld und nicht im
Vornamensfeld befindet, somit quasi in der Spalte verrutscht ist. Eingebettete Wer-
te sind Werte, die zusammen mit anderen in einem einzigen Datenfeld stehen.
Wenn z.B. neben dem Nachnamen auch noch die Anrede und der Titel im Nach-
namensfeld zu finden sind.
Beide Fälle führen bei der Dublettenerkennung zu Problemen. Im Falle der falsch
zugeordneten Werte führt ein datenfeldweiser Vergleich der Datensätze dazu, dass
„Äpfel mit Birnen“ oder wie im Beispiel erwähnt Vornamen mit Nachnamen ver-
glichen werden. Im Falle der eingebetteten Werte treten zwei Probleme auf. Fehlt
einer der in diesem Datenfeld gespeicherten Werte (z.B. der Titel) nur in einem der
Datensätze, führt dies zu einem geringeren Ähnlichkeitswert, und zwar egal ob es
sich um einen maßgeblichen Bestandteil handelt oder nicht. Sind in beiden Daten-
sätzen alle Werte vorhanden, aber in unterschiedlicher Reihenfolge, so führt dies
bei einigen Ähnlichkeitsmaßen zu starken Abwertungen.
Zur Verbesserung der Strukturierung werden die Inhalte der Datenfelder geparst,
in ihre Bestandteile zerlegt, klassifiziert und den passenden Datenfeldern zu-
geordnet. Zur Klassifikation und Zuordnung zu den passenden Datenfeldern wer-
den in den meisten Fällen Referenzdaten wie eine Liste aller Titel und anwen-
dungsfallspezifische Regeln benötigt.
5.4.2 Standardisierung
Standardisierung von Datenfeldern zielt darauf ab, dass semantisch identische
Inhalte identisch dargestellt werden. Dies meint im Grunde nichts anderes als eine
hohe Informationsqualität in Bezug auf die IQ-Dimension Einheitliche Darstellung .
Search WWH ::




Custom Search