Production d’une pipeline d’intégration et traitement des données risque de crédit sur le datalake interne de la SG pour une restitution sur différents usage. (Spark, Hive, Scala, Oozie, Shell, Jenkins, Ansible, Nifi)
• Receuil des données de interne au groupe pour une intégration dans le DataLake
o Récupération de données depuis API
o Récupération de données depuis flux TOM
• Etude et conception de bases de données et datamart
o Soutien aux business analysts afin d’obtenir des données optimales permettant une restitution appropriées aux besoin et usages métier
o Création d’un référentiel de la situation courante des encours des entreprises journalier.
o Croisement des données de différentes applications pour une mise à jour des données sur les portefeuilles de la banque
o Etude des données de notations des tiers afin d’avoir un référentiel représentatif de ceux-ci
• Suivi des équipes de développement Big Data
o Recrutement de développeurs côté Paris
o Review des équipes côté Bangalore
o Gestion de la chapter big data
• Approche CI/CD
o Montée d’une pipeline Jenkins permettant de pousser les artéfacts sur serveur Nexus
o Déploiement des artéfacts sur le datalake à travers scripts Ansible
• Clean code
o Mise en place d’un framework unique de développement au niveau des différentes feature teams
o Création de classes et méthodes réduisant la durée de développement afin d’obtenir un time to prod minimal
o Maximisation des tests unitaires pour un meilleur coverage
o Versionning sous Github
• Méthodes Agiles
o Jira
o Kanban
o Daily meeting
o Sprint planning
o Sprint review
Montée en production d’un DataLake. (AWS, Spark, Hive, Scala, Shell)
• Receuil des données de interne et externe au groupe pour une intégration dans le DataLake.
o Sqooping de bases SQL
o Récupération de données depuis API
o Récupération de données open source
• Développement d’un référentiel utilisateur unique.
o Recensement des utilisateurs sur tous les sites du groupe
o Recoupage des utilisateurs sur tous les sites
o Suppression des utilisateurs inactifs sur la plateforme
• Développement d’un système de chiffrage des données conforme RGPD.
o Chiffrage des données clients sensibles pour accès aux utilisateurs
o Déchiffrage des données pour les jobs de data science
• Mise en place d’une pipeline pour le tracking des utilisateurs.
o Receuil des données en streaming avec Kinesis
o Ingestion des fichiers Json
o Transformation des données en parquet
o ETL des données selon plusieurs types d’évènements
• Approche CI/CD
• Clean code
o Tests unitaires
o Création de classes et méthodes
o Versionning sous Github
• Méthodes Agiles
o Jira
o Kanban
o Daily meeting
o Sprint planning
o Sprint review
Production d’une pipeline d’intégration de données sur un cluster Amazon (AWS, Spark, Hive, Python, Shell).
• Définition de logique d’intégration.
o Extraction et comparaison des meta data avec un référentiel.
o Envoie des informations de job sur DynamoDB.
• Création de script d’ingestion en Spark
o Ingestion des données csv
o Transformation des données en parquet
o Pattern d’ingestion (jointure, filtrage, transformation,...)
o Rollback strategy
• Exposition des données sur Hive et Presto
o Gestion des accès d’utilisateurs aux bases
• Mise en production du projet
o Packaging
o Script de déploiement automatique sur QA et Prod
• Clean code
o Tests unitaires
o Création de classes et méthodes
o Versionning sous code commit (Git)
• Méthodes Agiles
o Jira
o Kanban
o Daily meeting
o Sprint planning
o Sprint review
Mise en production d’un processus d’analyse, intégration et de restitution de données pour un service smart checkout
de restaurants d’entreprise (Python, ELK Stack, AWS).
• Industrialisation d’algorithme de Machine Learning
• Transformation du NoteBook en script Python executable
• Création d’un script Shell pour la création du service
• Gestion de logs sur Kinesis et Lambda
• Transformation des logs
• Création de nouvelles variables sur Lambda
• Stockage des données sur ELK
• Visualisation de KPI sur Kibana
Data Scientist, Coneil Supérieur du Notariat, PARIS
Réalisation d’une étude afin de créer des modèles de prédiction utilisant les données historiques de différentes transactions immobilière réparties sur certaines régions (Dataiku, Python, R).
• Analyse et compréhension des besoins métiers
• Collecte des données avec Dataiku
• Pré processing des données
o Imputation des données aberrantes ou manquantes (Médiane ou Moyenne)
o Sampling des données
o Enrichissement des données grâce à des données OpenSource (IRIS)
• Développement de modèles de prédiction en Python et R
o Régression géographique pondérée
o XGboost
o Random Forest
o Neural Network
• Cross Validation
• Tuning de paramètres
• Présentation et démonstration des résultats
• Méthodes Agiles
o Daily
o Sprint planning
o Sprint review
Réalisation de la faisabilité d’un POC Big Data sur la détection de fraude en utilisant les technologies Hadoop et R
(Spark, Hive, R, SQOOP, Oozie).
• Réalisation d’un POC de détection de fraude
o Documentation des transformations de scripts SAS
o Implémentation des transformations sur HIVE
o Implémentation des algorithmes de Machine Learning sur R
• Formation et support d’équipes internes aux technologies du Big Data
o Initiation au Big Data
o Formation sur Hive
o Shadowing des équipes pour la montée en compétences
• Restitution et présentation du POC
• Industrialisation du POC
o Collecte des nouvelles données avec SQOOP et Shell
o Création de workflow avec Oozie pour l’automatisation
• Sélection de nouveaux cas d’usage réalisable dans le cluster Hadoop
o Définition de cas d’usages
o Réalisation des cas d’usages
o Gestion de projets
o Encadrement des équipes de développement
o Utilisation de Spark et Hive
• Méthodes Agiles
o Daily
o Sprint planning
o Sprint review
Création d’une plateforme d’analyse et reporting afin d’étudier la productivité et l’état du parc informatique
« Market/Global Data Infractructure ».
• Recueil des besoins et demandes auprès des différents pôles.
• Recherche des données dans les différents services.
• Nettoyage et intégration des données dans un cluster Elasticsearch.
• Mise en place de différents Dashboards répondant aux buts.
• Ecriture d’une documentation reliée aux outils.
Création d’un outil de clustering des données et de détection d’anomalies des infrastructures de données
• Text Mining.
• Création d’un algorithme non-supervisé permettant de classifier automatiquement les différents tickets reçues selon leurs ressembance.
• Analyse et prévision des séries temporelles.
• Détection d’anomalies dans une série temporelle.
• Création d’une interface web contenant différents Dashboards.
• Compte-rendu du projet.
• Déploiement de l’algorithme à d’autres pôles de Market