Projet 1 : IP CORE-XCHNG
Contexte:
Mise en place de la plateforme CORE 2
Travaux réalisés.
● Création d’un wrapper Kafka Streams en scala 2.11
● Intégration du wrapper dans le projet IP CORE-XCHNG
● Release fonctionnelle SWIP-FORWARD
● Release technique réduction de temps de build
● Revue de code
● Revue architecture du projet et des tests
● Tests unitaires et tests d’intégration
● Approvisionnement des stacks AWS
● Déploiement des solutions dans le cloud AWS
Projet 1 : RUBA
Contexte:
Projet de transformation Big Data
Travaux réalisés.
● Enrichissement du dossier d’architecture d’INCORE avec la partie RUBA.
● Mise à jour du dossier d’empreinte pour la création des environnements.
● Mise en place du projet
● Création de la structure de la SUV Finance Risk Social Indicators ● Mapping et tests
unitaires
Au sein de la Software Factory, a occupé le poste de Data Engineer afin de travailler sur
l’entrée des flux et les données utilisées, et ce via Phenix, la Plateforme Big Data de
Carrefour
Projet 1 - CAnoP ( Carrefour No Paper )
Contexte.
Le projet consiste à dématérialiser toutes la factures (Clients et fournisseurs) au sein de
Carrefour depuis l’extraction jusqu’à l’exposition des données à travers un web-service,
afin de faciliter la recherche et l’export en masse
Travaux réalisés.
● Indexation des données dans ElasticSearch
● Stockage des données dans Cassandra
● Développement d’une api-rest en Scalatra qui interroge ElasticSearch et Cassandra,
pour lire les données indexées en temps réel (Spark Streaming) Dans ElasticSearch et
persistées dans Cassandra.
● Tests d’intégration et tests unitaires
● Rédaction des Playbooks Ansible pour l’automatisation des déploiements.
● Déploiement et installation des différents composants dans les différents
environnements (Test, Pré-Production et Production)
● Déblocage ré-indexation des données dans ElasticSearch à partir de Cassandra
● Retours du module normalizer (Enrichissement du pivot)
● Rôle de facilitateur entre l’équipe de développement et l’équipe Corps Data
Environnement technique.
● Spark Scala et Spark Streaming
● ElasticSearch
● Cassandra
● HDFS
● Apache Kafka
● Scalatra, Scala
● Docker
● Ansible, Git, Jenkins, Rundeck, Mesos, Marathon
Projet 2 - OMS (Order Management System) – One Carrefour
Contexte.
Le projet One-Carrefour consiste à regrouper toutes les applications de Carrefour en une
seule application (One Carrefour), OMS est le composant centrale qui gère tous les
aspects des commandes reçues dans les différentes applications (Facturation,
Remboursement, Préparation des commandes…)
Travaux réalisés.
● Participation à la revue des spécifications et le chiffrage ● Création d’un topic Kafka
pour réceptionner les demandes de remboursement
● Normalization des demandes de remboursement (Ajout d’un schéma) ● Création d’un
topic kafka pour transférer les demandes de remboursement.
● Création des Playbooks Ansible pour l’automatisation des déploiements. ● Déploiement
et installation des modules Facture + Remboursement ● Extraction dans HDFS puis
curation dans Hive des factures + remboursement
● Tests unitaires + tests d’intégration
● Evolution des règles d’ingestion des données
Environnement technique.
● Spark Scala et Spark Streaming
● Apache Kafka
● HDFS
● Docker
● Ansible, Git, Jenkins, Rundeck, Mesos, Marathon
Projet 3 - Mandala Data Recovery
Contexte.
Ingestion des sorties PPC (Plateforme Préparation des Commandes) issues de Mandala
(Data Lake Carrefour)
Travaux réalisés.
● Module Spark Batch pour la lecture des données à partir de HDFS ● Module de Parsing
des données et enrichissement du pivot ● Module de génération des clés pour des
contraintes d’optimisation d’espace de stockage
● Stockage des données dans une table Hive
● Reprise de 3 ans d’historique
Environnement technique.
● Spark Scala
● HDFS
● Hive
● Docker
● Ansible, Git, Jenkins, Rundeck, Mesos, Marathon
Consultant Big Data / Data Engineer - CAPGEMINI
Contexte.
People Analytics est un programme de matching entre les offres et les demandes, le
programme permet de trouver les meilleurs profils pour les missions ouvertes, permet
aussi la gestion des ressources en interne et la recommandation de formations aux
collaborateurs
Travaux réalisés.
● Extraction et intégration des données dans Hadoop HDFS.
Extraction des données à partir de plusieurs sources, structurées ( R2D2 ) et
non-structurées ( CV PDF, fichiers Word ) et
semi-structurées
● Transformation et chargement des données dans des tables Hive ● Création d’un
workflow Oozie pour automatiser le traitement
● Lecture et préparation des données à partir de Hive
● Requêtes HQL pour lire les données à partir des tables Hive ● Développement
d’algorithmes de nettoyage des données en Spark ( Scala et Python )
● Développement des algorithmes de machine learning (Python, Spark Scala)
● Développement d’un module d’extraction des STOPWORDS en Spark (Spark MLlib,
TF-IDF, Scikit-learn, Scala et Python, NLTK )
● Développement d’un module d’extraction des COMPETENCES en Spark ( Spark MLlib,
NERModel, StanfordNLP, Scikit-learn, Python et Scala )
● Développement d’un module d’extraction des SYNONYMES (compétence, synonyme
compétence) en Spark ( Spark MLlib, TF-IDF, Singular Values Decomposition, Latent
Dirichlet Allocation model, Python et Scala/Java)
● Tests unitaires et tests d’intégration ( test-driven approach )
● Industrialisation des algorithmes (Oozie, Hue)
● Création d’un workflow Oozie pour chaque module développé pour automatiser les
traitements et d’un workflow Parent pour automatiser le lancement de plusieurs
modules, donner le choix à l’utilisateur de stocker les résultats dans une table Hive ou
dans HDFS
Projet 2 : KIPHOLM
Contexte.
Projet de transformation Big Data
Travaux réalisés.
● Participation aux ateliers de définition de l’architecture technique du projet
● Participation aux ateliers de modélisation des données
● MVP pour tester l’appel à un calculateur externe “Jarvis” avec Nifi et Python
● Développement des tables avec Spark Scala
● Développement de la classe pour préparation du message Atlas à envoyer
● Participation à la construction des tables du niveau 1 et 2
● Participation à la construction du message à envoyer à Atlas ( niveau 3 )
● Tests unitaires et tests d’intégration
● Participation à la construction du flux NiFi ( Partie Appel pour le calcul de l’éligibilité )
● Préparation du flux NiFi pour installation en Homol
Projet 3 : BV-Assiette INCORE
Contexte.
Projet de transformation Big Data
Travaux réalisés.
● Développement d’un job Spark en python pour la fiabilisation de la distribution des
données.
● Participation à la refonte de l’architecture du service de distribution des données en
Scala/Finatra
● Développement d’un module de mapping de données provenant de différentes sources
en Scala
● Revue de code, tests unitaires et tests de performance du service
● Mise en production du service de distribution
● Document applicatifs nécessaires au transfert de connaissances de l'entité et en
dehors de l'entité.
● Livrables : code, documentation, revue de code
Projet 4 : Care-Distribution SAFIR
Contexte.
Projet de transformation Big Data: Création d’un service de transfert des données SAFIR
de Teradata vers le Big Data.
Travaux réalisés.
● Mise en place d’un environnement de tests d’intégration en local avec Docker
● Participation au dossier d’architecture du projet de distribution des données de
Teradata vers le lake ( Big Data )
● Création des sources views dans Hive
Développement d’un flux Nifi pour la consommation des données dans Kafka et
l’archivage des fichiers parquets dans HDFS.
● Mise en production du service de distribution
● Documents applicatifs nécessaires au transfert de connaissances de l'entité et en
dehors de l'entité.
● Livrables : code, documentation, revue de code