Méthodes et Technologies : Python, spark, hadoop, hive, Datalake, Cloudera, Dataiku, tensorflow, keras, scikit-learn, NLP, mlflow, arbres de décision, xgboost, Datalab, Azure, Git, JIRA
Rôle : Pour société générale : Teach Lead
Pour onepoint : consultant manager
Activité :
Pour société générale : Participation à la création du scole data, participation à la construction du Datalab, participation à la construction du Data Solution Repository, Gestion et intervention technique sur quelques produits data : système de recommandation, système de prédiction de churn (départ des clients chez les concurrents), modèle d’octroi de prêt personnel immobilier, modèle de tarification pro adaptée à une nouvelle clientèle suite à l’acquisition de Shine (banque en ligne), Gestion des évolutions et de la migration vers le cloud Azure suite à la fusion avec Crédit du Nord, Gestion des demandes métiers, Gestion de l’audit, Animation des comités de suivi et comités opérationnels.
Pour onepoint : recrutement de consultants, coaching et accompagnement des consultants, réponses aux appels d’offre, représentation de onepoint à des évènements orientés data.
Méthodes et Technologies: Python, spark, hadoop, hive, DataLake, DeltaLake, Azure Storage, Azure DataFactory, Azure DataBricks, Azure Functions, Azure Monitoring, Azure DevOps, PowerBI Git, JIRA
Rôle : Tech lead data engineer, représentant de Microsoft et scrum master
Activité
Migration de certains systèmes d’information vers le cloud Azure.
Migration des processus de traitement depuis la collecte de données jusqu’au reporting sur le cloud
Azure et migration des graphiques sur power bi.
Maintien de la feuille de route et accompagnement des 4 data engineers internes pour monter en compétence et pour assurer les livrables.
Synthèse :
Projet d’analyse des alertes relatives au personnes politiquement exposées ou sanctionnées
Rôle :
Data Scientist/Engineer
Réalisation :
• Etudes et sélection paramètres/variables discriminantes
• Etude et choix de mesures de similarités entre les données des clients et les données des listes d’alertes.
• Mise en place d’un système d’identification des fausses alertes à clôturer et d’identification des alertes urgentes à traiter par les humains.
• Mise en production en France (Décembre 2018)
• Adaptation et mise en production en Italie (Février 2019)
Méthodes et
Technologies
Python, TensorFlow, scikit-learn, arbre de décision, DataLab, FastApi, C#.NEt, RPA avec UIPath.
Rôle Tech lead data scientist, scrum master
Activité ▪ Traitement des alertes liées aux personnes politiquement exposées (PEP), aux personnes sous sanction, mais
également leurs proches (Relatives & Close Associates : RCA).
▪ Mise en place d’un modèle d’IA de classification automatique des alertes en vraie et fausses alertes (des
millions d’alertes à traiter dont moins de 1% sont des vraies alertes).
▪ Gestion des recommandations d’audit.
▪ Mise en place d’une RPA exploitant le modèle d’IA afin d’interagir avec les alertes en passant par l’application
en interface graphique des alertes comme un opérateur humain l’aurait fait (contrainte imposée de ne pas
modifier directement les bases de données des alertes).
▪ Déploiement en France, et mise en place des interfaces graphiques de suivi des performances du modèle.
▪ Lead & Scrum master dans une équipe de 3 data scientists afin d’adapter le modèle aux contraintes des
différents pays d’implantation de la BNP.
▪ Coordination avec les équipes à l’étranger pour recueillir les spécifications de chaque pays, pour récupérer les
données, et pour la mise en production des versions adaptées dans les 18 pays en cible.
▪ Activités de suivi, de recette, d’analyse et de gestion des demandes métiers concernant l’interprétabilité ou
l’évolution des modèles.
▪ Animation des workshops et comités de suivi
Synthèse :
Extraction de l’information utile à partir de documents de type pdf ou image. Analyse de données et apprentissage artificielle pour la classification des documents : pièce d’identité, bulletins de paie, facture, etc. L’objectif est l’implémentation de services basées sur les résultats obtenus tels que le « bulletin de paie augmenté » (un bulletin de paie où chaque champ est expliqué et vérifié par les formules de calcul connus, avec une présentation d’un résumé des bulletins de paie précédent et de l’évolution du salaire).
Rôle :
Data Scientist
Réalisation :
• Mise en place d’un modèle unifiée de données des bulletins de paie
• Implémentation d’un flux d’extraction des données de bulletins de paie dans le modèle mis en place pour plusieurs types de bulletin de paie
• Mise en place du flux de pré-traitement des documents de type image avec l’outil Opencv
• Mise en place d’un système intelligent capable de reconnaitre le texte contenu dans les images prétraitées (Optical Character Recognition OCR) basé sur les réseaux de neurones
• Entrainement du réseau de neurones sur les bulletins de paie en format image pour qu’il apprend à extraire le contenu souhaité
• Entrainement d’un deuxième réseau de neurones pour qu’il apprend à extraire les informations souhaitées à partir des scans de pièces d’identité
• Réalisation des scripts de pré-traitement pour améliorer la qualité des données
• Intégration des données
• Création et pré-installation des images docker pour le déploiement des solutions développées
• Installation des solutions développées dans les images docker, test et vérification de leurs bon fonctionnement sur toute architecture linux, windows, et mac.
• Réalisation d’une version s’exécutant localement sur le navigateur de l’utilisateur pour les utilisateurs qui ne souhaitent pas envoyer leurs données pour un traitement coté serveur
• Optimisation de la version s’exécutant localement en utilisant les nouveaux concepts de workers en javascript pour la programmation parallèle
Synthèse :
Industrialisation du projet Big Data dans un contexte multi-clients, multi-plateformes.
Réalisation du datalake et mise en place de cas d’usage Data science permettant de définir de nouveaux services personnalisés dans le domaine de l’asset management et des services digitaux.
Rôle :
Data Scientist
Réalisation :
• Mise en place du flux d’alimentation du datalake
• Ingestion des données multi-sources
• Préparation des données et détection des anomalies
• Réalisation des scripts de pré-traitement pour améliorer la qualité des données
• Intégration des données
• Modélisation des données intégrées
• Synchronisation des flux
• Conception et réalisation des indicateurs BI et des scripts machine learning permettant :
o Suivi temps réel des coûts des services digitaux
o Suivi temps réel des parcs (matériel en panne, en stock,…)
o Segmentation des profils utilisateurs selon leurs usages
• Mise en place des tableaux de bord
• Rédaction /relecture des documents techniques (dossier de cadrage, document d’architecture technique, document de modélisation et document d’analyse).
Synthèse :
Projet de développement d’une plateforme Business Intelligence de contrôle et gestion de l’énergie (eau, électricité, CO2) pour le secteur immobilier
Rôle :
Data Engineer
Réalisation :
• Etudes et sélection des indicateurs de performances à considérer
• Conception et mise en place du datawarehouse
• Automatisation des tâches d’extracti...
Synthèse :
- Système de recommandation de produits basé sur une nouvelle approche distribuée de machine learning. Application aux sites d’e-commerce et de streaming.
- Système intelligent de reconnaissance des odeurs basé sur une nouvelle approche prédictive. Application aux nez électroniques (capteurs d’odeurs, contrôle qualité du café et du thé à partir de l’odeur, etc), et à la synthèse de nouveaux parfums sur mesure (recommandation des propriétés physico-chimiques à respecter pour la synthèse de molécules multi-odeurs avec des intensités variées : par exemple, synthèse d’une molécule émettant à la fois une odeur forte de du musc, une odeur modéré du citron, et une odeur faible de la menthe)
Rôle :
Data Scientist
Réalisation :
• Etude et analyse des limites des approches de machine learning existantes
• Proposition de nouvelles approches améliorées de machine learning
• Implémentation des méthodes proposées en C# et en Java
• Tests et validation de l’efficacité des approches implémentées
• Publication des méthodes implémentées dans revues spécialisées dans l’intelligence artificielle et dans le machine learning de renommé nationale (RNTI) et internationale (Springer et IEEE) :
Rédactions/Publications scientifiques par rapport aux Systèmes de recommandation
********.1007/978-3-319-59647-1_8
********.1007/s13748-017-0133-5
Rédactions/Publications scientifiques par rapport à la Prédiction
********/
********/
********.php?inprocid=1002302