L'ETL est un type d'intégration de données qui fait référence aux trois étapes (extraction, transformation, chargement) utilisées pour mélanger des données provenant de sources multiples.
Elle est souvent utilisée pour construire un entrepôt de données. Au cours de ce processus, les données sont prises (extraites) d'un système source, converties (transformées) dans un format qui peut être analysé, et stockées (chargées) dans un entrepôt de données ou un autre système.
L'extraction, le chargement, la transformation (ELT) est une approche alternative mais connexe conçue pour pousser le traitement jusqu'à la base de données afin d'améliorer les performances.
Avec l’avènement de la technologie de nos jours, il existe de nombreuses plateformes qui proposent des solutions d’intégrations de données pour les entreprises.
Informatica figure parmi les leaders dans le domaine avec une extension internationale et qui compte des grands groupes parmi ses principaux clients.
Comme on le sait, la gestion des données est d’une importance capitale pour une entreprise, quelle que soit sa taille.
IBM InfoSphere DataStage est un outil ETL et fait partie de la suite IBM Information Platforms Solutions et IBM InfoSphere.
Il utilise une notation graphique pour construire des solutions d'intégration de données et est disponible en différentes versions telles que l'édition serveur, l'édition entreprise et l'édition MVS.
Le système d’information en entreprise assure l’optimisation des flux d’informations qui permettent à terme de prendre des décisions rapides et précises, point central de l’activité de la gestion d’une entreprise.
À travers la diversité des informations à traiter par l’entreprise, les systèmes de traitement d’information ont créé le Master Data Management qui produisent ce qu’on appelle des master data ou données maîtres qui regroupent toutes les informations utiles au pilotage et aux différentes fonctions de l’entreprise.
Tout ce qui s’intéresse au monde des données connaît certainement ce que c’est qu’un ETL ou du moins l’a déjà entendu. Développé comme Extract Transform Load, un ETL est une sorte de logiciel de collecte de données dispersées dans de différentes sources pour centraliser le traitement.
Ce logiciel assure la conversion pour avoir le bon format adapté à un Data Warehouse ainsi que son transfert. C’est un outil innové qui permet de traiter les big data, donc spécialement dédié pour les grandes entreprises qui ont d’importants volumes de données à traiter pour une solution d’intégration de ces dernières.
TALEND fait partie des plateformes connues en tant qu’éditeur d’ETL, on va le découvrir avec d’autres ETL.
Informatica est un ETL largement utilisé sur le marché. Il comprend plusieurs modules dont Data Quality, Data Masking, Identity Resolution...
Datastage est un ETL appartenant à IBM. Il rassemble différents modules comme PX, TX, BO, SE...
MDM (Master Data Management) correpond à la gestion des données maîtres (regroupant toutes les informations utiles au pilotage et aux différentes fonctions de l’entrepris).
On peut noter une multitude d’autres ETL présentant des caractéristiques spécifiques pour répondre à la demande croissante du marché.