Database Reference
In-Depth Information
4
Integrationslösungen
von Talend
In diesem Kapitel wird zu Beginn ein kurzer Überblick über Talend und seine Produkte
gegeben. Anschließend wird genauer auf die Datenintegrationslösungen und dabei speziell
auf die Open Source-Variante Talend Open Studio for Data Integration eingegangen.
Die französischen Entwickler
Bertrand Diard
und
Fabrice Bonan
begannen 2003 die Ent-
wicklung einer freien Datenintegrationslösung. Daraus resultierte 2005 in Frankreich die
Gründung des Unternehmens
Talend
und die Veröffentlichung der „Talend Open Studio
Beta 1“. Innerhalb weniger Jahre konnte
Talend
sein Produkt- und Technologieportfo-
lio erweitern und verbessern und ist inzwischen zum anerkannten Marktführer bei der
Open Source-Datenintegration geworden, mit Niederlassungen u. a. in den USA, China
und Deutschland. Im Jahr 2010 erfolgte die Übernahme von
Sopera
, einem Anbieter im
Bereich der Anwendungsintegration. Damit konnte
Talend
seine Kapazitäten im Daten-
management erweitern und kann heute Integrationslösungen in einem Umfang anbieten,
die Unternehmen benötigen.
Derzeit (Stand: Juli 2012) ist die Talend-Plattform in Version 5 erhältlich und umfasst neben
der Daten- und Anwendungsintegration die Bereiche Datenqualität, Stammdatenmanage-
ment und Business Process Management [Tal12c].
4.1 Talend v5 Plattform
Die Talend v5 Plattform ist modular aufgebaut (vgl. Abbildung 4.1). Die Module sind als
komplett freie Grundversion Talend Open Studio bzw. als Enterprise Varianten mit erwei-
tertem Funktions- und/oder Supportumfang erhältlich. Die Beschreibung der Module er-
folgt, soweit nicht anders angegeben, anhand der von Talend auf der Website
talend.com
[Tal12c] bereitgestellten Informationen.
Talend Open Studio for Data Quality
(ehem. Open Proiler) bzw.
Talend Enterprise Data
Quality
ermöglicht die Analyse von Daten hinsichtlich ihrer Qualität. Dadurch können
In-
tegrität
und
Konsistenz
der Daten überprüft und sichergestellt sowie
Anomalien
und Zu-
sammenhänge zwischen den Datensätzen gefunden werden.
Dubletten
werden ermittelt
und falsche Daten aufgrund von
Musteranalysen
(z. B. Email-Adresse hat die Form *@*.*)
oder
Wertebereichsanalysen
(z. B. Alter größer 0 und kleiner 130) identiiziert.