Database Reference
In-Depth Information
2.5.1.1 Extraktion
Bei der Extraktion werden die für relevant befundenen Daten aus den Quellsystemen aus-
gelesen. Die benötigten Daten liegen in der Regel in unterschiedlichen Formaten vor, kön-
nen strukturiert sein, wie beispielsweise Daten aus Datenbanken oder einfachen Tabellen,
semistrukturiert wie z. B. Daten aus XML- bzw. CSV-Dateien oder unstrukturiert wie Da-
ten aus Briefen, Emails, Beschreibungen. Je nach Art kommen unterschiedliche Techniken
zum Einsatz. Bei Daten aus Datenbanken werden meist die Bordmittel der Datenbank-
systeme verwendet, wie Bulk Loader- oder Export-Funktionalitäten, für semistrukturier-
te Daten wie CSV- oder XML-Dateien spezielle Extraktoren. In jedem Fall muss sicherge-
stellt sein, dass die Quellsysteme erreichbar sind und das der Zugriff auf die erforderli-
chen Daten möglich ist. Dies beinhaltet nicht nur die technische, sondern auch die recht-
liche Absicherung des Extraktionsprozesses. In diesem Teilschritt muss die sich aus der
Schnittstellen- und Kommunikationsautonomie ergebende technische und syntaktische
Heterogenität der Quellsysteme überwunden werden (vgl. dazu auch Abschnitt 2.3.2 und
2.3.3).
Die Extraktion der Daten kann entweder vom ETL-System angefordert ( pull ) oder vom
Quellsystem angestoßen ( push ) werden. Zeitpunkt und Umfang der Extraktion werden ent-
sprechend der verfolgten Ziele in einer Strategie festgelegt [LN07, S.382 ff.] [BG04, S.49].
Üblicherweise werden folgende Varianten im Hinblick auf den Zeitpunkt der Extraktion
unterschieden [BG04, S.82 ff.]:
Periodische Extraktion - Die Extraktion erfolgt in regelmäßigen Zeitabständen und zu
einem festgelegten Zeitpunkt, z. B. am Ende des Tages, der Woche oder am Monatsende
Anfragegesteuerte Extraktion - Die Extraktion erfolgt je nach Bedarf für weitere Analy-
sen, z. B. bei Aufnahme neuer Analyserichtungen oder neuer Daten in die Quellsysteme
Ereignisgesteuerte Extraktion - Die Extraktion startet durch ein eingetretenes Ereignis,
z. B. wenn ein Messwert einen Schwellenwert übersteigt
Permanente Extraktion - Die Extraktion läuft kontinuierlich zu jedem Zeitpunkt fort,
z. B. bei realtime- oder neartime-Anwendungen wie der Verfolgung von Börsenwerten
oder Währungskursen
Dabei wird entweder der gesamte Datenbestand zu einem bestimmten Zeitpunkt extra-
hiert ( Snapshot-basiert ) oder nur die seit der letzten Extraktion angefallenen Änderungen
( Delta-basiert ).
2.5.1.2 Transformation
Der Teilschritt Transformation ist zuständig für die Konsolidierung und Homogenisie-
rung der extrahierten Daten. Diese Aufgabe ist der wichtigste Schritt des gesamten ETL-
Prozesses, allerdings auch der zeit- und arbeitsintensivste Bestandteil. Der hohe Aufwand
hierbei ergibt sich sowohl aus der syntaktischen , als auch aus der strukturellen und seman-
tischen Heterogenität der einzelnen Quellsysteme. Insbesondere sind folgende Arten von
Transformationen erforderlich:
syntaktische Transformationen - Homogenisierung und Konsolidierung im Hinblick
auf Zeichensätze, Datentypen, Datenformate usw., z. B. Umwandlung aller Daten in Un-
icode, Konvertierung von bit und boolean in char(1), Vereinheitlichung aller Flatiles in
CSV-Dateien mit Komma-Separator usw.
Search WWH ::




Custom Search