Expérience professionnelle
Juin 2022 – Aujourd’hui : Data Engineer GCP–Metro Cash & Carry
DataMesh :
Récupérer les données de différentes sources de données client
Extraction des données dans des tables partitionnées et clusterées dans BigQuery
Développement des pipelines de données en utilisant les DAGs Composer
Environnement : BigQuery, composer, cloud storage, python, sql
Février 2022 – Juin 2022 : Data Engineer GCP–Carrefour
Carrefour Links :
Récupérer les données des tickets de caisse
Créer des tables partitionnées et clusterées dans BigQuery
Créer des dashboards en utilisant Looker
o Environnement : BigQuery, dbt, git, Looker
Novembre 2021 – Janvier 2022 : Lead Technique GCP–L’Oréal
OPAL : Concevoir et développer une API OPAL :
Définir l’architecture de l’application
Concevoir et définir le schéma de la base de données.
Concevoir et développer les différentes cloud functions.
Concevoir et développer les endpoints de l’API
Définir les paramètres et exposer l’API via Apigee
Définir les channels HIP de transfert de fichiers.
Notifier les utilisateurs de l’arrivée de nouvelles données en envoyant des emails SendGrid
Documenter l’API en utilisant Swagger
Tester l’API en utilisant Postman
Mise en production de l’API
o Environnement: BigQuery, Cloud Storage, Cloud Functions, Apigee, SendGrid, git, Python, IAM, HIP, Swagger
Janvier 2021 – Aujourd’hui : Consultant Big Data–Renault Digital
A3CT : accélérer l’utilisation des données au sein des unités commerciales des régions aux marchés :
Développer des différents Dags pour automatiser la réception des données de différents sources (BVM, FCS…) en utilisant Composer (Airflow).
Extraction et chargement des données dans BigQuery et CloudStorage.
Calculer les scores pour classifier les clients en utlisant DataProc, DataFlow et Spark.
Développer les abonnements PubSub.
Industrialiser les différents Use Cases du machine Learning
Environnement: GCP (BigQuery, Composer, PubSub, CloudStorage, DataFlow, DataProct), python, Spark, scrum, jira, confluence, Github,
Mai 2019 – Aujourd’hui : Consultant Big Data–La SACEM
Développement d’un API pour gérer la gouvernance des données.
Développement des scripts Glue pour traiter des fichiers des différents providers (Facebook, Youtube, Deezer.).
Extraction les IDE12 (identifiant d’œuvre musical entendu ou regardé) dans ces fichiers.
Construire une vision 360 en regroupant les données provenant des tous les providers dans un table pivot.
Stockage des données dans S3 et Elasticsearch
Visualisation des données dans Kibana et Tableau.
Documentation des différents scripts et processus développés dans Confluence.
Environnement: AWS (glue, emr, ec2, rds, ecs, ecr, redshift), apache atlas, python, spark, postegres, Kanban, scrum, jira, confluence, Github,ELK
Aout 2018 – Aujourd’hui : Consultant Big Data– EDF LYON
Développer des flux Nifi pour exporter des fichiers excel GPS (gestion des planifications) de zone sécurisée vers HDFS
Développer des jobs Spark scala en utilisant IntelliJ pour transformer les données stockées dans HDFS en tables HIVE
Installation et configuration de Tableau Server 10.5
Développer un job Spark scala en utilisant IntelliJ qui lance plusieurs jobs Spark 1.6.2 en parallèle.
o Environnement : Hadoop (HORTONWORKS), HDFS, Hive, Scala, Nifi, Kafka, Git, Maven, Kerberos, Ranger, JIRA, KANBAN
Mars 2018 – Aout 2018 : Consultant Big Data– Atos (forfait pour un client confidentiel)
Etude de faisabilité de connecter Ceph avec Nifi
Installation et configuration de Hadoop sur Mesos
Ecriture des requêtes Impala et Hive sur l’ensemble des données
Ecriture des scripts Kafka (Producer & Consumer) en python et en scala pour gérer les sources productrices de données et consommateurs de données.
Stockage de données dans HDFS et ElasticSearch.
Installation et configuration de DC/OS
o Environnement : Hadoop, Python, HDFS, Hive, Scala, AWS, ElasticSearch, Mesos, DCOS, Impala, Nifi, Kafka, Ceph, Git, Maven, Ansible
Septembre 2016 – Décembre 2017 : Consultant Big Data– Alteca (SSII)
Déploiement d'une solution basée sur une méthode de système de recommandation afin de permettre à un site internet de voyage d'offrir des destinations personnalisées aux utilisateurs.
Stockage des données sur Hadoop (HDFS)
Intégration et manipulation des données sur des bases de données Apache Hive
Participation à l’intégration de la solution dans une application web service
Déploiement d'un algorithme Machine Learning sur Python.
Installation et configuration de HortonWorks sur Azure et découverte de l’écosystème
Stockage de données dans MongoDB
Ecriture des scripts Pig interrogeant ces données.
Développer des jobs Spark Scala.
o Environnement : Hadoop, Python, Pig, Hive, MongoDB, Hbase, HDFS, Spark, Hue, Ambari, Azure, MongoDB, Scala, AWS, YARN, Kibana, ElasticSearch, Jenkins
Juin 2016 – Septembre 2016 : Formation Big Data – Fitec (centre de formation)
• Formation certifiante
Présentation Big Data : Présentation de l’écosystème Big Data du point de vue technique, économique, ainsi que les différents uses cases et métiers.
Introduction à Python : Comment utiliser et faire des programmes en python
Ecosystème Hadoop : Introduction très détaillée aux modules de l’écosystème Hadoop, HDFS, HIVE Ambari, YARN, concept du MapReduce, Pig et Hive.
Ecosystème Spark : Introduction très détaillée aux modules de l’écosystème SPARK, à scala, au RDD.
Scraping des données : Crawl et API, Open Data, pour récupérer de la donnée du Web. Parsing de données aux formats JSON et XML.
Bases de données NoSQL : Apprendre à stocker et requêter des données sur différents types de base de données (Cassandra, Hbase, MongoDB et Elasticsearch).
Machine Learning: Machine learning distribué avec Spark MLlib
Data Visualisation : Kibana et Power BI.
KAFKA : Introduction à Apache Kafka et au principe des systèmes de publish-suscribe-messaging - Installation et configuration d’apache Kafka - L'architecture d’Apache Kafka (brokers, topics, producers, consumers) -Manipulation d’opérations Kafka - Apache Kafka & Spark en vue du traitement en temps réel (Real-timeAnalytics) et le monitoring.
Projet d’équipe : (e-reputation des candidats présidentiels) Scrapping des données du twitter et Facebook et traitement (analyse des sentiments) en utilisant spark et python et Kibana pour la visualisation des résultats.
Obtention du certificat avec mention Très bien
o Environnement : Cloudera, CentOS 7, Ubuntu, Python, Scala, MongoDB, Cassandra, Hbase, HDFS, Sqoop, Hive, Pig, Kibana, Power BI, Elasticsearch, Logstach…
Janvier 2016-Juin 2016 : Consultant .Net – Bouygues Telecom
• Projets :
Refonte de l’application SPEED pour les entreprises clients de Bouygues Telecom
Développement des procédures stockées et pour la même application en utilisant Oracle
o Environnement : SqlServer 2008 R2, T-SQL, C#, procédures stockées, Visual Studio 2012
Aout 2015-Décembre 2015 : Consultant .Net/MSBI – L’Oreal
• Projets :
Développement d’une application de classification des rapports
Développement d’une application de gestion des abonnements pilotés par les données.
o Environnement : SqlServer 2008 R2, C#, Asp.net, Procédures stockées, Visual Studio 2012
Janvier 2015-Juillet 2015 : Consultant .Net/MSBI – GTT (GazTransport & Technigaz)
• Projets :
Conception et développement d'une solution d'intégration SSIS (chargement des plusieurs flux .csv).
Développement et implémentation des calculs d'indicateurs commerciaux (atelier avec client et rédaction des fiches indicateurs).
Conception et développement des rapports SSRS (tableaux, graphiques, indicateurs).
Planification et abonnements SSRS.
Migration d’une application vers vb.net
o Environnement : SqlServer 2008 R2, T-SQL, Vb.net, procédures stockées, Visual Studio 2012, SSRS
Janvier 2014-Décembre 2014 : Consultant MSBI – Aristote (SSII)-Paris
• Projets :
Développement d'une solution de migration SSIS permettant l'alimenter d'un nouveau DataWarehouse en se basant sur un existant :
Mise en place d’une solution SSIS permettant :
-Le chargement (extraction) de 32 flux de donnée en Entrée (fichier csv et XML)
-La transformation des données (conversion de données, éclatement de fichier sur plusieurs tables
-Intégration des données dans le DTW en respectant les règles de gestion et les intégrité entre les différentes entités
-La traçabilité des traitements (Extraction, Transformation et intégration) et la gestion des logs et historique
-Gestion de rejet de données et de fichier en cas d’échec.
o Environnement : SqlServer 2008 R2, Visual Studio 2008, SSIS, T-SQL
Septembre 2011-Décembre 2013 : Consultant .Net – EPPM (Bureau d’études)
• Projets :
Conception et développement d’une application permettant l’exploration du pétrole
Conception et développement d’une application d’organisation interne de la société et la gestion de ses ressources Humaines
Développement d’une application de gestion de licence.
Collaboration avec la MOA du Soudan (Anglais)
Rédaction des documents de spécification technique en anglais.
Participation aux réunions de validation techniques et fonctionnelles.
Développements, test et validation de tous les modules développés.
Maintenance évolutive et corrective du produit
o Environnement : Sq...