Database Reference
In-Depth Information
Die Vorverarbeitung beinhaltet beispielsweise 18 :
• Groß-/Kleinschreibung
Verwendung einer homogenen Schreibweise bei alphanumerischen Zeichen-
ketten für eine bessere Vergleichbarkeit
(z.B. „FernUni“, „Fernuni“
„fernuni“).
• Prüfung der Schreibweise
Verwendung von Referenztabellen zur Korrektur von Tippfehlern.
• Ersetzen von Abkürzungen
Ersetzung von allgemein bekannten Abkürzungen (z.B. „Str.“ „Strasse“)
• Vereinheitlichung von Namen
Zerlegung von Namen in ihre Bestandteile (z.B. Titel, Vorname, Nachname)
und Sortierung in eine einheitliche Reihenfolge (z.B. „Mustermann, Max“
„Max Mustermann“). Die Bestandteile von Namen sind domänen- und
sprachspezifisch. So können auch Namen in eine andere Sprache übersetzt
werden (z.B. „Giuseppe“ „Joseph“).
• Vereinheitlichung von Adressen
Analog zur Vereinheitlichung von Namen bestehen auch Adressen aus ver-
schiedenen Bestandteilen (z.B. Straße, Hausnummer, Postleitzahl, Stadt), in
die die Adressen zerlegt werden.
• Transformation von Formaten
Vereinheitlichung von Feldern mit unterschiedlichen Formaten. Dies betrifft
beispielsweise Datumsangaben (z.B. „01. April 2008“ „01.04.2008“) und
Telefonnummern (z.B. „030/12345678“ „+493012345678“).
• Konvertierung von Einheiten
Numerische Werte können mit Hilfe einer Konvertierungsfunktion in eine
andere Einheit umgerechnet werden (z.B. Währungsumrechnungen, Tem-
peraturangaben).
• Ersetzen von Leerstellen
Für einen korrekten Vergleich müssen Leerstellen in Zeichenketten ersetzt
werden (z.B. „fernuni hagen“ „fernunihagen“).
• Behandlung fehlender Werte
Fehlen Werte, so sollten diese nicht für die Duplikaterkennung herangezo-
gen werden oder mit Standardwerten belegt werden.
18 vgl. [15], S 132, [19], S. 326 ff. und [34], S. 88 f.
Search WWH ::




Custom Search