Projet : ECHELON – Lutte anti-blanchiment
Nous avons une solution (SONAR) permettant de remonter mensuellement
des alertes sur des comptes suspicieux à partir d’un modèle d’IA alimenté par
des transactions SWIFT, SEPA, etc. Les paiements et données référentielles
sont reçus via des pipelines conçus par le CDH (compliance data hub).
J’ai travaillé avec l’équipe CDH et l’équipe ECHELON.
Réalisations :
Développement de pipelines pour l’alimentation quotidienne et
mensuelle de SONAR l’outil d’AML (Paiements SWIFT et fichiers
référentiels) : Java Maven Spring Spark, SQL, Airflow,
Elasticsearch (BDD de paiements), Gitlab, Git, Docker,
Intellij, Stockage Amazon S3
Atelier avec les métiers pour définir le scope fonctionnel
des données à recevoir
Rédaction des spécifications techniques avec le Business
Analyst
Implémentation des règles d’extraction Spark, SQL
Conception des tests unitaires (JUnit) et intégration à
la CI/CD
Tests techniques en environnement de Développement
Tests fonctionnels de la donnée en environnement
d’Intégration et Préproduction
Création des Dags Airflow pour l’automatisation du
lancement des jobs
(quotidien/mensuel/conditionnel)
Déploiement des pipelines dans les différents
environnements du CDH (Dev, Int, Preprod, Prod)
Développements d’outils tactiques/ monitoring dans l’outil
SONAR, et analyses des données : Python Pyspark, SQL,
Minio S3, Postgres, Keycloak, Gitlab, Git, Jupyter Hub
Analyses et extractions des données pour itération avec
les métiers : Pyspark, Sql, Python
Développement de règles de filtrages tactiques avant
livraison des pipelines CDH : Pyspark, SQL
Développement de systèmes de monitoring des Dags
Airflow de SONAR pour remonter des KPIs sur les
données intégrées et rejetées quotidiennement suivant
des critères business : Pyspark, Python, SQL,
Airflow, S3, Postgres
Analyse des résultats du modèle d’IA et remontée des
données explicatives des alertes remontées chaque
mois : Pyspark, SQL
Définir les métriques caractérisant les features et la
population d’entrainement en vue du monitoring du drift
du modèle d’IA
Création d’un Dag pour la génération automatique des
métriques de drift chaque mois : Python, Airflow
Gestion des accès utilisateurs et migration des releases entre
les environnements : Minio S3, Postgres, Keycloak, Jupyter
Hub, Bastion
Création des utilisateurs et attribution des profils et
droits : Keycloak
Migration des évolutions/corrections de l’environnement
de Dev jusqu’à la Production : Git, Gitlab, Jupyter
Hub, Bastion
Refonte du système de migration des releases et de versioning
dans l’outil SONAR : Docker, Gitlab, Pyspark, Jenkins
L’outil SONAR est déployé pour différentes entités dans le
monde qui sont étanches les unes des autres (ayant chacune
son Gitlab/Airflow/Jupyter Hub) bien qu’ayant des
fonctionnalités partagées, et ceci est aussi le cas pour chaque
environnement de chacune des entités. L’idée ici est de créer un
Gitlab commun qui comprendra les fonctionnalités communes
aux entités afin de faire un seul déploiement et limiter les
actions manuelles.
Mise en place d’un système de CI/CD et création de
liens symboliques entre les Gitlab : Gitlab, Docker,
Jenkins
Définition de tests unitaires pour les fonctionnalités à
implémenter Pyttest
Factorisation des applications communes aux entités et
optimisation des requêtes Pyspark, SQL
P.O.C avec les architectes et métiers
Acquis fonctionnels : Paiements Swift MT et MX, Risque AML
Projet : CONCEPTION ET MISE EN PRODUCTION D’UN CHATBOT WATSON ASSISTANT
Création de l’interface du Chatbot via IBM Watson
Conception d’un modèle word2vec et d’un système de recommandation assignant des
solutions à un ticket/texte pris en entrée Python
Mise sur pied d’une API pour la consommation du modèle Python FastApi
Création d’une image Docker de cette API
Déploiement de l’image sur le cloud privé Vinci-énergies
Création d’un nom de domaine
Déploiement de l’image sur une VM de préproduction
Tests unitaires via Pyttest
Paramétrage du docker-compose pour passer par un reverse proxy pour la
production
Déploiement sur le serveur de production
Intégration de l’image déployée au Chatbot pour récupérer les tickets entrants et renvoyer
des solutions
Intégration du Chatbot à l’interface du client
Github Actions était utilisé pour la CI CD
Projet : DÉTECTION D'ANOMALIES sur des courbes d’intensités d’aiguilles de Tramway chez
un Acteur des transports Suisse
Récupération des données depuis un bucket S3 AWS avec Pyspark
Traitement des données via Python
Conception d’un modèle de clustering (2 classes) via DataRobot et validation avec le client
(Isolation forest anomaly detection with calibration)
Mise en production du modèle via une image Docker
Projet : MIGRATION DES FLUX DE DONNÉES DE BOULANGER D’ORACLE VERS Snowflake
Paramétrage des connecteurs ODBC à Oracle et Snowflake
Tests de non-régression des fluxs de données
Ecriture des requêtes SQL pour alimenter Snowflake
Projet : Mise sur pied d’un data pipeline
Insertion de fichiers json dans une collection mongodb
Provision du datalake s3 depuis mongodb
Entraînement d’un modèle de classification de demandeurs de prêt avec des données de s3
Déploiement du modèle via une api (FastApi)
Insertion des prédictions dans une base Sql Server
Création d’une image Docker de l’API
GitHub Actions pour le CI CD
Livrable : déploiement de la solution via l’image Docker sur le cloud privé de vinci-energies
Projet : OPTIMISATION d'installation de bornes de recharge de véhicules électriques
Traitement, analyse et nettoyage des données historiques de consommation sur les bornes de
recharge (Connecteur, Modèle, consommation, etc)
Enrichissement avec des données issues de L'INSEE et du Scraping du site Meilleurs Agents
Livrable : Modèle de prédiction de la rentabilité d'un profil de Borne + un arbre de décision
montrant les profils à forte consommation + une analyse descriptive du fichier
Projet : OPTIMISATION DE TRAJET DES PARCOURS DE TOURNÉES
Déploiement de l'environnement et modèle d'optimisation du projet en production via une
image docker
Projet : ACCOMPAGNEMENT DE CONFORAMA DANS LA MIGRATION ET L'AMÉLIORATION DE
LEURS PIPELINES DE DONNÉES
Installation de la nouvelle version de IBM SPSS Modeler Server et Client sur le serveur de
recette et de production
Paramétrage des connecteurs ODBC à SQL Server et Simba Bigquery
Test de non-régression des pipelines
Création d’un pipeline Python pour optimiser le chargement des données issues de IBM SPSS
Modeler dans Bigquery et remplacer la brique de chargement ligne par ligne
Projet : MAINTENANCE PRÉDICTIVE sur des équipements de tramways en France
Segmentation des pannes par équipement et type de panne
Filtrage et nettoyage des pannes aberrantes
Enrichissement des données avec de l'open data (nombre de lignes, affluence,)
Livrable : Modèle de prédiction du temps jusqu'à l'arrivée de la prochaine panne (COX)
Réalisations :
▪ Mise en place de modèles Machine Learning / Deep Learning (Supervisée, Non
Supervisée)
▪ Scraping des données Web
▪ Mise en place de pipeline de déploiement des modèles créés sur DataRobot
▪ Containerisation d’API
▪ Migration de bases de données
▪ Scripts de chargement de données en Bulk
▪ Conception de modèles de Machine Learning via DataRobot et Python
▪ Création de pipelines de données
▪ Création d’API de consommation de modèles
▪ Déploiement d’images docker sur traefic
▪ CI CD Github actions
▪ Evaluation de modèles
Une plateforme web traitant 3 aspects du besoin Client :
Communication (Template de communication par Mails) via Java EE, JS
Visualisation (Intégration d'un Dashboard) via Power BI
Chatbot (SAP ChatBot) utilisant une API faite en Python (NLP, K-Means, Flask, Pickle)
Réalisations :
▪ Chatbot, Dashboard et API