CONTEXTE: Mise en place des contrôles pour la surveillance des marchés financiers (Market Abuse
Surveillance)
Mise en place et validation de solutionstechniques
Développement de pipelines de collecter, ingestion et transformation des données de l’ensemble des
bourses mondiales des traders de la Société Générale
Implémentation de contrôles financiers(Front Running, Insider, …) en PySpark
Migration de contrôles depuis Hadoop on-premise vers cloud Azure (HDinsight, Azure Storage, …)
Migration d’Airflow 1.1.9 vers Airflow 2.1.3
Développement d’un outil de monitoring de l’ensemble des applications Spark via l’API Yarn, la Stack
EKL (Elasticsearch, Kibana, …) et Alerta
Automatisation de la création et la destruction des clusters HDInsight via Airflow
Amélioration et développement de pipelines de CI/CD avec Jenkins et Ansible
Code review et validation des Pull Request de toute l’équipe de développement
Veiller au bon fonctionnement de l’ensemble des parties techniques de la Platform
Accompagner et faire monter en compétences des Data Engineer Junior
Passation des entretiens techniques et validation des profils
Security Champion de l’équipe, un rôle permettant d’attribuer les droits selon les profils, gérer les
accès dans Azure avec Azure AD et Azure Keyvault, …
CONTEXTE: Conception et implémentation de l'ensemble des parties d'un Datahub
Architecture
Conception de la zone DataLake dans HDFS
Conception d'une architecture d'intégration de flux de données en tempsréel
Développement
Développement d'un pipeline pour l'intégration de différents dans Hadoop (HDFS, Hive, ...)
Mise en place de module du monitoring des Workspaces dans Datahub
Collecte, indexation et stockage deslogs de l'ensemble des modules du Datahub dans Elasticsearch
Evolution d'un ETL Spark pour la récupération et transformation des flux métier contenu dans des
fichiers CSV
Développement d'un module Python pourl'alimentation du Tableau Server
Tests et livraisons(CI/CD)
Mise en place d'un pipeline CI avec Azure Devops, Jenkins et SonarQube
Automatisation du déploiement des livrables avec Ansible
Documentation des projets et du code source dans Github
CONTEXTE Conception et mise en place d'un Datalake
Architecture
Définir les architectures techniques des projets Data et leurs Templates
Conception d'architectures microservice pour la mise en place de PoC (Proof of Concept)
Définition des modèles de développement et de livraison avec Docker
Data Security et gouvernance
Sécurisation d’accès aux ressources du DataLake (HDFS, Kafka, Hive,Hbase) via Apache Ranger
Synchronisation des ressources du cluster entre Apache Ranger et Atlas avec une API Java
Streaming & Batch Processing
Développement d'un outil ClickStream pour la collecte des erreurs de l'application ServiceBox PSA
Développement d'un outil permettant aux clients de PSA de s'opposer à la sauvegarde des données
personnelles (droit à l'opposition) protégées par la loi RGPD
Inspiration de différentes sources de données, traitement et stockage (Spark, Scala, parquet, ...)
Implémentation de pipeline d'ingestion de tables Exatadata vers Elasticsearch
Tests et livraisons(CI/CD)
Développement de tests TDD / BDD
Analyse et inspection de la qualité du code avec SonarQube
Automatisation du processus de déploiement depuis Git jusqu'aux serveurs de production avec
TeamCity
Documentation des projets et du code source dans Github
Tâches :
Analyse des spécifications fonctionnelles détaillées et spécifications techniques détaillées
Développement couche métier en C++ et C#
Développement des IHM en ASP .NET MVC 4 et Winform
Développement et optimisation des requêtes SQL en SqlServer 2012
Mapping des objets en ODB et ADO .NET
Réalisation des tests unitaires en CCPunit et en Nunit
Suivi de vesrsions avec tortoise SVN
Validation et intégration dans le Framework TARGET2-Securities
Environnement technique: C++, C#, STL, Visual Studio 2013, SVN tortoise, DesignPattern, CPPCheck, Jenkins, Sql Server 2012, Asp .Net MVC 4, SVN Tortoise, Ilog Cplex
Laboratoire Informatique de Paris Nord, Mars 2015 – Septembre 2015
Rôle : Ingénieur étude et développement C++
Tâches :
Rédaction des spécifications techniques détaillées
Développement de la couche métier en C++
Développement des requêtes SQL avec Mysql
Réalisations des tests unitaires en CCPunit
Suivi et gestion de versions avec Git
Mapping des objects avec OBD
CONTEXTE: Migration d'un système de gestion électronique de documents (GED) vers Datalake
Développement
Analyse des besoins en termes de migration
Développement de pipelines data pour l’alimentation du HDFS et de base de données Cassandra
Automatisation des déploiements
Développement de script pour la capture de nouvelles données avec Apache Kafka
Stockage et indexation des données dans Elasticsearch
Déploiement deslivrables en production
Collecte, nettoyage, contrôle de cohérence, date quality
Développement des jobs Spark pour la récupération et l’analyse des données depuis Oracle avec Spark
SQL et Scala
Développement des connecteurs génériques pour l’acquisition et l’insertion des données depuis
plusieurs sources (Cassandra, HDFS, Elasticsearch),
CI/CD
Développement et exécutions destests
Mise en place de pipelines d'intégration continue
Documentation du code source dans Gitlab