Data lake Architecte Data Technique (Azure)
Société Générale - SGCIB
9/2022 -
SG CIB commence à migrer vers cloud (Azure) depuis 2019. C'est un grand défi de fournir de bons services et
une bonne plate-forme pour plus de 150 projets derrière, en particulier comment garantir la sécurité des
données en transit et également au repos, ainsi que garantir la résilience du cloud.
‣ Responsable de la mise en œuvre et du déploiement de « Spark on K8S » (en utilisant Spark Operator, Argo
Operator, Argo
Workflow, Helm, Prometheus, Grafana, Thanos, Promtail, AKS, Java etc.)
‣ Responsable et participation à différents services cloud (Spark sur K8S, Airflow sur K8S, Data Lineage avec
plugin Spark)
‣ Responsable de la conception de data gouvernance avec data lineage et data catalogue
‣ Responsable de plusieurs tâches d'optimisation des coûts (Industrialisation Storage Lifecycle management, Sparksur K8S Job conf intelligent Advisor avec métriques Prometheus etc.)
‣ Diriger une équipe de support à Bangalore
‣ Responsable de la mise en œuvre d'Airflow sur K8S et assurer les projets (en utilisant la charte Helm)
‣ Responsable et participer au projet « North Start » qui guide l'ensemble du département informatique de la
SGCIB pour les années à venir
‣ Responsable de la maintenance, du support et de la mise à niveau de différents produits et services fournis pour
différentes équipes Bigdata (en utilisant ArgoCD, Jenkins, etc.)
‣ Responsable du développement et de la maintenance de certains projets
‣ Participer à conseiller et guider différents projets bigdata
‣ Responsable de certains scripts d'automatisation (Python, Shell)
Environnement Technique : Azure, AKS, HDI, Spark, Grafana, Promethus, Zeppelin, Helm, Argo CD, Argo
Workflow, Kafka, SpringBoot
SRE/Architecte Data Technique
Kering Groupe - Datalake
10/2019 - 8/2022
Le projet datalake du Groupe Kering intègre les données clients, ventes, approvisionnements et stocks des
différentes marques de luxe du groupe. Ensuite, nous nettoyons les données et effectuons l'agrégation
nécessaire afin de les fournir à différentes équipes telles que l'équipe AI Factory, l'équipe CRM. Ils pourraient
les utiliser pour effectuer des analyses plus approfondies, créer des tableaux de bord avec des outils BI,
prendre des décisions stratégiques, etc.
‣ Responsable de la mise en œuvre de l'architecture complète en utilisant la méthodologie automatisée
Infrastructure as Code (IaC), y compris Packer, Docker, Ansible pour la création d'AMI AWS et Terraform,
Terragrunt, Jenkins pour le déploiement.
‣ Responsable de la conception du Data Lineage de bout en bout (implémenté avec Lambda, Airflow médiateur,
Tableau API et S3 notification d’événements)
‣ Coordination avec l’équipe Data gouvernance et responsable de la mise en place d’outil Data Catalogue
« Zeenea », architecture de catalogue AWS Glue et la gestion de sécurité des données
‣ Responsable de la conception et de la mise en œuvre d'un service de réplication de données Multi-Cloud entre
AWS, GCP et AliCloud (écrit en GoLang)
‣ Responsable de la sécurisation de l'accès aux données(IAM, AWS Lake formation etc.), de l'amélioration des
performances, de l'optimisation des coûts
‣ Responsable de la surveillance du cluster en développant des scripts et en utilisant les services AWS (Grafana,
Promethus, NodeExporter, CloudWatch etc.)
Environnement Technique : AWS, GCP, EMR, Spark, Zeppelin, Tableau Server, NiFi, Druid, Grafana,
Promethus, Ansible, Packer, Terraform
Hadoop Administrator + DevOps
Société Générale - SGCIB Data lake
2/2018 - 9/2019
Le cluster Hadoop de SG CIB fournit plusieurs services différents et aussi le support pour plus de 100 projets
du groupe. Je travailles pour le département GTS(Global Technologies Service) qui gère l’infrastructure pour
l’ensemble du groupe. Et nous collaborons également avec le département informatique de SGCIB en tant
qu’équipe technique en mode DevOps avec méthodologie Agile. Ce cluster a plus de 150 noeuds et environ
2PB de données.
Nous avons développé notre propre solution d’ingestion de données dans le data lake; nous optimisons à la
fois la sécurité et la performance du cluster; nous rédigeons les spécifications techniques et les règles du
cluster; nous fournissons des échantillons et des directives, ainsi qu'un service de support aux équipes de
projet.
‣ En charge des opérations quotidiennes et de la maintenance (analyse des incidents, gestion du changement,
planification de la capacité)
‣ Responsable de l’upgrade du cluster HDP (2.6.2-> 2.6.5)
‣ En charge de l'optimisation des clusters, PoC des nouvelles fonctionnalités / services jusqu'à la livraison sur
PROD (ex. cGroup).
‣ En charge du script Puppet pour automatiser la création de cluster ou l'augmentation de capacité
‣ Responsable de la conception et implémentation de la solution de DR (HDFS DistCP, réplication HBase)
‣ Responsable du développement et de la maintenance de certains projets (ex. Code source du correctif de
Hadoop / Hive [HDFS-13916], projet d’ingestion de données, surveillance des jobs DistCP)
‣ En charge de développement de script de surveillance et d'alerte des services Hadoop (en Python et Shell)
‣ En charge du développement de la nomenclature (BOM) pour toutes les équipes de projet; et les aider à migrer
vers la nouvelle version après l’upgrade de cluster (à HDP 2.6.5)
‣ Participer à la migration de On-Promise vers Azure
Environnement Technique : RedHat7.4, HDP 2.6.5, Elastic Search, Solr, Puppet, Spring Boot 2, Spring
Framework 5
Big Data France
Orange
5/2017 - 1/2018
Le cluster Big Data France est un des plus grands clusters Hadoop en France (distribution
Hortonworks). C’est une plate-forme transversal qui sert à trentaines applications différentes sous le groupe
Orange avec presque tous les composants populaires sur marché. Au même temps, notre équipe a un cluster
Cassandra, un cluster Teradata et un cluster ElasticSearch comme périphériques du cluster Hadoop afin de
satisfaire des besoins différents.
‣ Construire un nouveau cluster de PréProduction de zéro (en utilisant Ambari et Kerberos)
‣ Recette des nouveaux serveurs, installer des components/outils/librairies nécessaires au niveau système et
cluster, configuration des composants différents
‣ Administrer le cluster ElasticSearch
‣ L’upgrade du cluster Hadoop
‣ Améliorer la scalabilité, stabilité et performance en configurant et adaptant des paramètres différents
Environnement Technique : Redhat6, Un cluster Hortonworks HDP (Ranger, Hive, HBase, Spark, Hue,
Knox, Sqoop, Pig, Oozie, Zookeeper, Flume, Kafka, Dataiku, Khiops) et un cluster HDF (Nifi, Zookeeper), Un
cluster Cassandra, Un cluster ElasticSearch, Un cluster Teradata
Expert Technique (Système Analyste - Performance)
BNP CIB - Connexis Cash2
12/2014 - 4/2017
Le projet ConnexisCash2 est une application de FO qui fournit un contrôle et une visibilité complets sur des
comptes dans le monde entier, et une gamme complète de services domestiques et internationaux de cash
management. Elle est une application top 10 du groupe BNP Paribas.
‣ Améliorer / refactoriser le code Java / J2EE pour améliorer le temps de réponse et scalabilité du système:
Spring MVC, JMS, EJB, HQL, SQL, etc.
‣ Initialiser des projets MicroService basé sur Spring Boot, fournir des conseils de mise en œuvre,
l'industrialisation de la gestion / installation / surveillance pour les environnements Integration / PreProd / Prod;
développement des tests automatisés de performance et d'un système d'avertissement basé sur Gatling (écrit
en Scala) et Jenkins
‣ Gérer un environnement ISO Prod et réaliser des stress tests (Neoload, Yourkit, IBM Memory Analyzer, JMeter,
SoapUI, Introscope, Splunk, Gatling), analyser et effectuer des performances tuning sur plusieurs niveaux
(middleware (ActiveMQ, WebSphere MQ, WebSphere Application Server, pools de threads et de connexion,
taille de JVM, stratégie de GC), réglage des paramètres Oracle, code et algorithmes)
‣ Fournir des conseils professionnels (en particulier sur les sujets de performance) à l'équipe Connexis Cash
(mode Java / J2EE, API, multi-thread, gestion de la mémoire, optimisation de l'algorithme, résolution de
problèmes); l’audit de la qualité du code (SonarQube)
‣ Rassurer le support niveau L4 de l'environnement de production
‣ L'analyse de la demande, la validation des concepts pré-projets (POC) et la participation à certains projets
spéciaux (comme Spring Integration pour remplacer certaines applications dans Tibco)
‣ Participer à la documentation de support, aux instructions d'installation, aux “roadmap” du produit, à la
documentation technique, etc.
Environnement Technique : Java6/Java8, Jython, Scala, Shell, EJB3, JMS, Spring, Spring Boot, Hibernate, Jasper,
WebSphere, WMQ, ActiveMQ, Camel,Tibco, Git, AIX, Oracle, Neoload, YourKit, IBM Memory Analyzer, JMeter, SoapUI,
Introscope, Splunk, ElasticSearch, Gatling, etc.
Conception and development J2EE
Orange (France Telecom) - Scribe
7/2013 - 11/2014
Le projet SCRIBE est un projet d'application de gestion des correspondances sortantes (courriers, mails,
SMS) vers les clients Grand Public d'Orange.
‣ Analyse du besoin et étude des solutions
‣ Réalisation des fonctionnalités(Développement des modules : envoie SMS/Email, Purge, IHM, WS etc)
‣ Correction des anomalies
‣ Gestion de livraison sur plusieurs environnements
‣ Mise en place de la méthodologie Scrum
Environnement Technique : Spring Integration, JMS (Joram), Jonas Server, Web Service (CXF), Hiber...