Détection automatique des anomalies dans les opérations de trading (8 To) et correction des ratios
de liquidités
❑ Extraction des données à partir des applications métiers, unification des schémas jsons
❑ Chargement des données sur le data Lake, optimisation de chargement
❑ Implémentation d’une machine exploratrice avec 13 algorithmes non supervisés,
permettant d’identifier de nouveaux formats d’anomalies non détectés par les métiers
❑ Data augmentation, enrichissement des données par des variables artificielles.
❑ Mise en place des modules de posttraitement des outliers et de scorning d’anomalies
❑ Etudes statistiques des données et découvertes des patterns d’anomalies
❑ Validation des anomalies avec les métiers.
❑ Mise en production des algorithmes scalables sur le datalake
❑ Mise en place d’un module de réapprentissage en ligne
❑ Evaluation des ROIs de projets (apport monétaire et infrastructures)
❑ Documentation et formation sur la production
❑ Présentation des cas d’usages aux services et application de la machine exploratrice dans
d’autres directions (comptable, contrôle de gestion, gestion de risques etc.)
❑ Encadrement pendant 1 an de deux alternants (data ingénieur et data science)
❑ Gestion de projet sur la partie data science (Jira)
❑ Proposition d’architecture Big data pour migrer la production data de SPSS vers CDSW
(cahier d’architecture détaillé)
❑ Mise en place de l’architecture Big Data sur 5 nœuds puis 40 nœuds. (Cloudera)
❑ Réalisation d’un POC et participation à sa mise en production portant sur un système de
recommandation de prix (XGboost regression quantile, SparkML, Python, Hbase)
❑ Participation à l’industrialisation du projet Churn.
❑ Réécriture d’une production data science de R vers Pyspark (gain de temps de 17h à 1h30)
Plusieurs projets réalisés, ci-après quelques-uns non-confidentiels
Projet 1: "Incident Analysis" : plateforme d’analyse et de prédiction d’accidents graves
Expert data science (TextMining) / Big Data (scalability)
❑ Mise en place d’une architecture Big Data pour les projet data (branche RC).
❑ Élaboration des modèles machine learning pour prédire le niveau de risque d'accident en
fonction des anomalies, presque-accidents et des rapports de maintenance (plein texte);
croisement entre des données non structurées et des indicateurs de plusieurs sources.
❑ Modélisation et implémentation des deux cas d'usage concernant l’analyse des accidents :
▪ Mise en relation entre les REX, les accidents et les anomalies remontées par site.
▪ Recommandation des mesures à prendre suite à un accident/ niveau de risque
élevé.
Technologies (Python, Hive, Sqoop, MongoDB, Service Web REST) /(TextMining, Semantic
extraction, NLP pipeline, Classifier)
Projet 2: "Robot Pipelines inspection" : Prédiction des anomalies par raclage robotisé
Consultant Data science / Big Data
❑ Croisement entre les données de capteurs issues des robots d’inspections passées dans
des pipelines sur 300 Km.
❑ Prétraitement des données et enrichissement avec l’open data
❑ Mise en place d’un modèle prédictif des pannes (corrosion, fissure, cassure, bombage…) ;
deux modèles : un pour les points critiques et un pour les tronçons critiques.
❑ Affiner la zone géographique d’intervention pour la réparation
Technologies (Python et PySpark, Azure Data Factory, blob storage, HdInsight)
Projet 3: Prédiction des pannes sur une unité de raffinage
Consultant Data science / Big Data
❑ Collecte des données de capteurs à partir des systèmes de stockage propriétaires.
❑ Modélisation de la topologie des pannes en collaboration avec les métiers
❑ Modélisation bayésienne des pannes (causes et conséquences)+ modèle prédictives.
❑ Développement d’une interface graphique d’alerte et d’un simulateur de réparation des
Upsets (optimiser le fonctionnement d’une unité).
Technologies (R et Python, Django, Service Web REST, Hive, Hbase)
Projet 4 à 10 : Projets confidentiels autour de la :
❑ Prévision stratégique + Prédiction du prix de pétrole sur 10 ans
❑ Prédiction de la marge sur les produits finis etc.
❑ Recommandation de composante d’architecture Big Data pour la partie Data science et BI
❑ Mise en place de deux use-cases métiers autour de la "Product Ligne Mangement" pour
réduire le coût de construction des nouveaux appareils (Machine Learning sur 9 ans)
❑ Gestion d’une équipe de 8 personnes. (planification, estimation budgétaire, livrables)
❑ Proposition d’une architecture Big Data compatible avec l’écosystème existant
❑ Mise en place des tableaux de bord métiers avec (Tableau, Spotfire)
❑ Comparaison des modèles ML sur les données et choix d’algorithmes efficaces
❑ Recommandation d’outillage et estimation du coût de la mise en production
❑ Direction connaissance client, projet Lutte contre le blanchiment des capitaux et le
financement du terrorisme : migration vers une approche Big data
❑ Réalisation d’un prototype Big Data qui remplace le système existant (gain : temps de
traitement passe de 8 h à 40 minutes). + Mise en place de l’architecture.
❑ Modélisation des données, préparation de l’espace de stockage et importation des
données puis automatisation des flux.
❑ Implémentation des règles métiers de détection des alertes concernant les opérations
suspectes (une dizaine de patterns d’alerte)
❑ Ajout d’un ensemble de règles via des algorithmes ML (Association rules + SVM Classifier)
❑ Ajout des fonctionnalités de paramétrage, rattrapage et extension du modèle.
❑ Proposition d’architecture cible avec une estimation budgétaire pour la migration
❑ Chef de projet Big Data, pôle CRM- Agile.
❑ Conception et mise en œuvre d'un Datalab pour la direction CRM
Le Datalab vise la préparation des données pour le calcul des scores, le ciblage marketing
et les extractions métiers :
❑ Rédaction des spécifications techniques détaillées
❑ Modélisation du Datalab et cartographie des flux
❑ Alimentation du Datalab par Sqoop + Test (Rapport de tests de performance)
❑ Industrialisation des alimentations + Optimisation des scripts de calcul et de
l’architecture
❑ Mise en place de 14 KPI réseaux (Hive, Impala, CADS, Teradata)
❑ QoS des clients mobiles (taux d’appels coupés, couverture réseaux voix-data etc.)
❑ Compatibilité entre les antennes et les téléphones mobiles
❑ Travaux temporaires sur des antennes majoritaires
❑ QoS TV-Box, couverture (4G / 3G / U900)
❑ Ciblage de push mobile à travers l’analyse du comportement client afin d’augmenter
l’audience sur les applications. (Hive, Impala, Cloudera, Teradata,)
❑ Ciblage des campagnes marketing dans un environnement Big Data (R, Hive, Teradata)
❑ Réalisation du projet "Qualification des données marketing et administratives" (Impala)
❑ Responsable de la partie Big data dans le projet FUNEL (transformation de vente)
❑ Proposition d’application pour la monétisation des données mobiles.
❑ Structuration des nouveaux types de données pour des applications métiers (données
issues des applications mobiles, TV-Box, géolocalisation, serveurs vocaux etc.)
❑ Révision des processus et du mode de fonctionnement de l'équipe CRM-Agile pour
formaliser et optimiser son fonctionnement.
❑ Formation Big Data pour l’équipe CRM-Agile :
❑ Big Data concept and langage (Hadoop, Distributions, MapReduce, HDFS)
❑ Data Interrogation (Hive, Impala, Pig, Jaql), Data analysis (R, Mahout)
❑ Machine Learning: Spark. Streams and visualization tools (Banana, Big Sheet),
Divers Big Data technologies (Sqoop, Flume, Oozie etc.)
❑ Automatisation des mesures de performances des campagnes marketing : modélisation et
implémentation
❑ Cartographie des flux (à partir de Datalab, Datalake, entrepôt et base de données)
❑ Rédaction des spécifications techniques détaillées
❑ Création d’une base de données (Hive), alimentation et calcul des agrégats.
❑ Révision de code source et migration d’une partie vers une technologie in-memory (réduire
le temps de traitement) + Gestion de projet
❑ Industrialisation de l’application + Documentation et formation sur l’application
T