Expérience professionnelle
Missions effectuées
Société Générale
Août 2022- Mai 2024
Consultante Big Data - Data Engineer Senior
Contexte :
Projet : Détection des tiers fragiles
Mission : Le projet consiste à repérer et identifier les clients fragiles de la Société Générale. Il englobe
à la fois l'évolution et la maintenance du système de détection, dans le but d'améliorer la précision et
l'efficacité de cette identification des clients fragiles.
Environnement technique :
● Spark, Pyspark, Git, intellij, Jenkins, Control-M, HQL ,Csa, Smartplan, Jira
Principales responsabilités :
• Mise en place d'un mécanisme pour fiabiliser le calcul des virements compte à
compte des tiers afin d'améliorer l'identification de la fragilité.
• Mise en place d'un nouveau critère de détection de fragilité : les "impayés sur
les crédits".
• Maintenance des scripts développés en PySpark.
• Planification, développement et mise en production en mode double run,
incluant la coordination des activités, la validation du processus et le
basculement vers la solution finale.
• Collaboration continue avec les analystes métier pour s'assurer que les besoins
répondent aux exigences métier.
• Élaboration, implémentation et fiabilisation des règles de gestion.
• Communication continue via emails et tickets Unity pour assurer un suivi précis
des modifications en production, renforçant ainsi la traçabilité des
changements.
• Automatisation et ordonnancement des jobs via Control-M.
• Déploiement des scripts via Jenkins.
• Gestion des incidents sur les trois environnements.
Projet : Migration d'outil d'ingestion des données
Mission : Le projet consiste à migrer l'outil d'ingestion des données de Hadoop Connector vers Splunk
DB Connect et Amazon S3 afin de réduire le coût de la licence Hadoop.
Environnement technique :
● Splunk, Hadoop, Trino, Python 3.7, SQL.
Principales responsabilités :
• Analyse des besoins et des exigences du projet.
• Planification et coordination de la migration des données.
• Installation et configuration des pipelines de données pour la migration de
Hadoop à DB-Connect.
• Migration de code d’environ 400 objets Splunk, y compris les rapports, les
tableaux de bord et les alertes.
• Mise en œuvre d'une gestion des accès améliorée, garantissant une sécurité
renforcée des données aux objets Splunk migrés.
• Formation des utilisateurs sur les nouveaux processus d'accès et de gestion des
objets Splunk.
Banque de France
Octobre 2019 – Juillet 2022
Consultante Big data - Data Engineer
Contexte :
Projet : Supervision augmentée
Mission : Développement d'un système basé sur la data science qui étudie le comportement de la
consommation métrique du SI de la banque afin d'éviter les remontées d'alertes pour des
surconsommations ordinaires.
• Collecte des données en SPL (Splunk Programming Language)
• Étude de la corrélation globale de la consommation par échelons des serveurs
pendant une semaine
• Étude de la dispersion raffinée, application de la loi normale aux données pour
garder que les valeurs qui se dispersent les moins
• Génération du modèle type par serveur, ces modelés sont appelés pour la
supervision
Mission : Amélioration de la supervision du système d'information de la banque en se servant du
Data Science pour l'analyse textuelle pour une détection plus rapide des anomalies.
❑ Traitement des données :
• Requêtage en SPL des indexes des incidents de l'outil Splunk en faisant des jointures
avec d'autres pour la collecte des données
• Application des expressions régulières, traitement des valeurs nuls pour le
traitement des données collectées
• Application des commandes data science ( nlp ) pour faire un regroupement des
incidents par similitude textuelle en se basant sur le contenu de résumé de
l'incident.
• Création d'un script en python pour l'extraction de pattern de similarité textuelle
entres les incidents
❑ Dashboarding
• Création d'un Dashboard en Splunk contenant diverses options des filtres :
recherche libre, période à étudier, etc, intuitive qui permet une interaction libre lors
du regroupement des incidents par similitude textuelle.
Projet Scoring
Mission : Amélioration d'un projet ayant comme finalité de donner un score indiquant la criticité des
Ordres des changements en utilisant une approche Machine Learning supervisée.
❑ Traitement et exploitation des données :
• Création des scripts python qui permettent la phase de préparation des données :
• Gestion des Dummies variable, valeurs nulles
• Classification des ordres des changements par rapport à leurs degrés incidentogène
• Application d'un sampling aux données pour éviter le data balancing
• Suivie des bien exécution des jobs planifiés
• Suivie des bien exécution des jobs planifiés
• Création d'un système automatisées grâces a des jobs planifiés au préalables
permettant une :
o Évaluation mensuelle de modèle machine learning
o Sélection et application du meilleur modèle machine learning
o Sauvegarde des divers modèles générés
• Suivie automatisé de la bonne exécution des jobs planifiés
❑ Dashboarding
• Création d'un Dashboard en Splunk qui permet de suivre l'évolution du différents
modèles machine Learning au cours du temps en se basant sur les métriques des
modèles (précision, f1 score).
Environnement technique :
● Splunk, Python3.7/2.7, GITLAB, MLToolkit,
Elitech
Juillet 2019 - Septembre 2019
Consultante Big data - Data Engineer
Contexte :
Projet : Traitement des données pour reporting RH
Mission : Réalisation d'une solution Big data sur Cloudera (CDH) qui permet de faire la
correspondance entre des offres d'emploi disponibles sur Internet et les compétences des candidats
de Elitech. Ce projet permet d'aider les recruteurs de Elitech dans l'étape de pré-sélection des
candidats.
❑ Collection et ingestion des données :
• Exécution quotidienne de code de web Scrapping pour la collecte des offres
d'emploi.
• Ingestion des données capturées en format Json vers HDFS sur la plateforme Big
Data Cloudera.
• Alimentation automatique de tables Hive.
❑ Traitement des données en lots :
• Extraire les données stockées en HDFS à l'aide de Spark2.
• Transformation des données en appliquant des opérations de nettoyage et
d'agrégation.
• Indexation des offres de travail avec Elasticsearch pour faciliter la recherche de
données dans leurs contenus.
• Analyse du contenu des offres de travail.
• Stockage des résultats dans des tables Hive interrogeables par Impala sous
Cloudera.
• Correspondance automatique avec les CV des candidats qui sont déposés sur HDFS.
❑ Reporting
• Affichage des indicateurs à l'aide des outils de reporting Power BI Desktop et
Tableau software.
Environnement technique :
● Cloudera 5.13, Spark2, Scala, Elasticsearch, Power BI, Tableau software, HDFS, Hive,
Impala, Linux.
Atlas Finance Solutions
Février 2019 - Juin 2019
Consultante Big data
Contexte :
Projet : Baracio plateforme de détection des attaques en cybersécurité
Mission : Amélioration et maintenance d'une plateforme big data sur Hortonworks (HDP) pour la
détection des cyberattaques en temps réel en analysant le trafic réseau.
❑ Collection et ingestion des données:
• Capture des données à la volée à l'aide de wireshark
• Stockage des données en format texte en local
• Communication automatique entre l'outil de messagerie Kafka et wireshark
• Création et exécution des scripts avec Cron sous Linux
❑ Traitement des données en temps réel :
• Re-configuration d'apache Storm pour améliorer le parallélisme (nombre de
Workers, d'exécuteurs Spout et Bolt et de tâches)
• Modification et Création des nouveaux bolts storm afin d'améliorer la performance
de la plateforme
• Implémentation des nouveaux algorithmes pour la détection des attaques à la
plateforme codée en Java8
• Ajout d'une fonctionnalité, en Python 3, de machine Learning et NLP (analyse
sémantique) qui permet de détecter la validité d'un DNS
• Gestion d'adéquation entre les librairies python et la plateforme Big Data au niveau
déploiement
• Création d'une Topologie apache Storm en mode production pour la plateforme Big
data
❑ Stockage des résultats:
• Gestion de stockage synchronisé Storm et HBase
• Utilisation Apache Phoenix pour requêtage analytique coté HBase
• Veiller à ce que les résultats sont bien stockés dans HBase
❑ Maîtrise de la distribution Hortonworks HDP déployée sur Microsoft Azure
❑ Maîtrise Linux : commandes et des scripts Shell
❑ Administration et supervision de l'infrastructure Big Data
Environnement technique :
● Python3, Java8, Kafka, Storm, HBase, Phoenix, Wireshark, Azure Hortonworks HDP, Linux.
TALAN
Juillet 2018 - Janvier 2019
Ingénieur machine Learning
Contexte :
Projet : Prédiction des attritions des employés
Mission : Conception et réalisation d'une solution Machine Learning pour analyser et prédire les
démissions des employés. Ce projet permet de prédire les éventuels départs (quotidiennement),
déterminer la probabilité de départ relative à chaque collaborateur et d'identifier les raisons
majeures d'abondance.
❑ Collecte des données
• Exploration de la base de données PostgreSQL
• Compréhension globale des tables et des requêtes utilisées
• Génération des variables calculables à partir des requêtes
• Régénération des requêtes selon une condition temporelle
❑ Préparation des données
• Traitements des champs nuls et des attributs catégoriques
• Génération du datas et du training et du time Sampling
• Détection de la corrélation entre les variables
❑ Modélisation
• Sélection et normalisation des champs (Calcul des fréquences)
• Application de divers algorithmes natifs et avec librairies ML
• Sélection du meilleur algorithme et évaluation du modèle avec régularisation
des paramètres et des ...