Projet réalisé dans une équipe de 8 personnes
Alimentation de Datalake et de Datawarehouse pour le Suivi d’indicateurs métiers relatifs aux assurés de produits GROUPAMA.
MISSIONS
Définition d’une stratégie pour l’alimentation d’un datawarehouse, implémenté sous Oracle, à partir d’un datalake au moyen des ETLs Informatica, Pig et du framework Spark-Scala
Mise en place d’un automate générateur shell de codes PIG et de schémas JSON décrivant des fichiers de données (au format AVRO) déposés dans un datalake au moyen des outils SQOOP et CDC Oracle Golden Gate
Finition des programmes PIG générés, exécution de ceux-ci en vue de nettoyer les données brutes non qualifiées du datalake puis intégration des données obtenues dans une base HIVE devant servir de point d’appui à des process Spark destinés à alimenter les tables d’un datawarehouse
Modélisation des traitements d’ingestion des données liées aux activités de banques et d’assurance et découlant des spécifications fonctionnelles (définition des algorithmes).
Traduction, sous SQL, du modèle de traitement obtenu et définition d’un prototypage d’intégration en script HQL
Traduction sous Spark-SQL des scripts Hql dégagés (Spécification claire des objets de programmation [Champs, Méthodes et Fonctions])
Coaching d’une équipe de développeurs (pour la maîtrise d’un environnement HADOOP et de son écosystème)
Rédaction des spécifications techniques
Présentation des solutions validées au client
Analyse de jobs Datastage PX et Server afin de décrire le fonctionnement de certains traitements à reproduire avec la solution BIGINSIGHT
Mise en œuvre d’un «Proof of Concept» consistant à intégrer, en parallèle, un ensemble de documents aux formats divers et variés (XML, Texte) dans un datalake avec la solution BIGINSIGHT d’IBM (solution intégrant INFOSPHERE DATASTAGE, le cœur d’Apache HADOOP et BIG SQL un moteur SQL permettant d’ interroger les données stockées dans un cluster Hadoop)
Présentation du POC au client
Etude des solutions CDC (change data capture) capable de traiter au minimum 1TO de données et de faire communiquer des systèmes maitres (sources) et esclaves (cibles) sur un réseau étendu
Proposition de solutions prenant en compte les problèmes diagnostiqués (Changement de structure des données sources, espace de stockage requis trop important, perturbation de la réplication si suspension puis reprise, impossible de transformer les données à la volée sur le système cible au cours de la réplication, impossibilité de répliquer en temps réel)
Projets réalisés dans une équipe de 4 personnes
Audit, Expertise et Conseil dans des projets menés en parallèle chez AGIRC et ARRCO, LOCCITANE et HERMES.
Remédier au mauvais départ d’un projet TALEND en procédant à sa variabilisation complète
Donner de bonnes bases de travail à une équipe de développeurs sur les processus d’ingestion de données en leur rédigeant des normes de développement et des conventions de nommages
Début de pratique d’agilité par le rassemblement d’équipes appartenant à la même entreprise dans un même espace de travail
Remodelage des traitements mal conçus (Transformer des jobs Map Reduced en jobs DI et vice versa)
Remodelage d’un projet de centralisation des audiences des prospects et clients du site ******** avec force de propositions sur la forte évolution du volume de données (10 TO + 300 GO de croissance tous les mois)
Coaching de la migration de l’ancienne plateforme vers l’environnement HADOOP
Mise en place d’un paradigme informatique aussi bien sous HADOOP que dans une plateforme Server afin de garantir l’efficacité de tous les projets ETL
Propositions et mise en place de solutions afin d’anticiper sur les dangers encourus par le SI Pages Jaunes (saturation entrepôt données, sécurité des données, etc.)
Mise en place d’une bibliothèque d’outils Datastage (routines et jobs réutilisables) assurant la standardisation et l’efficacité des développements en rapport à toutes les applications de la cartographie logicielle (notamment une routine exécutant en parallèle plusieurs instances d’un job server et aussi plusieurs jobs différents)
Fiabilisation, maintenance évolutive et corrective des applications Datastage et scripts SQL (Oracle et Netezza))
Rédaction de document d’exploitation et livraison des packages sur les différents environnements
Coaching technique d’une équipe d’ingénieurs BI par la formation aux outils réalisés et la mise à disposition des normes de développement et conventions de nommage des objets utiles
Etoffer qualitativement le patrimoine BI et améliorer les délais de livraison
Projet réalisé dans une équipe de 11 personnes
Etude du comportement des visiteurs du site ******** afin de leur pousser des solutions et produits personnalisés pouvant booster leur activité commerciale
MISSIONS
Projet réalisé dans une équipe de 7 personnes
Assurer la robustesse, la fiabilité et l’efficacité de projets datastage mettant en application des règles de gestions métiers liées à l’assurance et à la prévoyance retraite.
MISSIONS
Mise en place de procédures de recette bout en bout et de non régression d’application assurant la sécurisation, la normalisation et la validation des données
Description algorithmique des tâches et traitements traduisant le besoin exprimé par la maîtrise d’ouvrage
Optimisation et Tuning des traitements
Rédaction de document d’exploitation et livraison pour la production