Construire un Data Hub permettant l’acquisition de flux et de stocker de bout en bout toutes
les données relatives aux transactions bancaires : virements domestiques, virements
internationaux, prélèvement, monétique, transactions.
Participation dans différentes phases du projet depuis la définition de l’architecture technique,
la qualification des exigences techniques basées sur des User Stories, à la réalisation ainsi
qu’au suivi de développements de l’équipe.
• Caractériser des solutions techniques à la fois transverse et propres aux users stories.
• Prédéfinir l’architecture de la gestion des flux de données.
• Conceptions et développements d’une application de type Extract-transform-load
(ETL), gérant principalement les processus d’ingestion, manipulation (Spark), mises en
correspondances (mappage) des données et exposition des données.
• Ingestion de données (Serveur de collecte, MQSeries, Kafka Connect, Kafka)
• Enrichissement des données (Flink)
• Indexation des données (Elasticsearch)
• Exposition des données (Topic Kafka, Hive, Kibana, Angular)
• Stockages et extraction des données (Cassandra, HDFS, Spark)
• Revue de code et vérification des métriques (Jenkins, Sonar) afin d’assurer la qualité
du code.
• Mise en place de documents techniques et de bonnes pratiques en ligne, à disposition
des équipes et nouveaux arrivants (Confluence).
Au sein du pôle IoT Analytics, suite à la mise en place des fonctionnalités contrôle moteur des
véhicules automobiles, différents rapports de qualité du code sont générés. Ce projet avait
pour but d’analyser ces rapports issus de la chaîne d’intégration continue afin de détecter les
erreurs de codage en amont.
● Conception et déploiement d’une architecture distribuée de traitement de données Big Data
(Hadoop, Sqoop, Spark, R/RStudio)
● Analyse des Rapports de Qualité du code (R, Spark)
● Visualisation des données (Power BI)
Au sein du Centre de Développement et Recherche de l’University of Nevada, analyser des
habitudes de vie, les moyens de transport utilisés par les habitants de Los Angeles & les causes
des accidents de la route.
● Ingestion de données et nettoyage des données (CSV),
● Réalisation des analyses descriptives et prédictives (R/RStudio Server)
● Machine Learning : segmentation, clustering, modèles de régressions logistiques dans le but
de prédire le temps de travail des Angelenos
● Visualisation des données (ggplot2)