GCP Security auditor | BPCE/Natixis (France/Suresnes)
Revu de sécurité de la Landing Zone GCP et propositions d’améliorations.
Vous ne pouvez pas modifier le contenu de ce document ni le re-utiliser (même en partie) sans une autorisation expresse et écrite de la part de 'Slim ********'. Vous ne pouvez également pas distribuer
ce CV à d'autres parties sans une autorisation expresse et écrite de la part de 'Slim ********.
Mise en place de la plateforme Data et son infrastructure basée sur GCP:
• Definition de l’architecture de la plateforme
• Mise en place des composantes transverses (Réseaux, Hiérarchie, IAM, CICD, GKE, Gouvernance,…)
• Mise a disposition des environnements des Business Units
• Sécurisation de la plateforme pour être habilité a contenir des données de santé.
• Assistance et aide a la montée en compétences des Features Teams des Business Units.
Le projet Usage Based Maintenance a pour objectif de tirer profit des données d’usage (ou de conduite) issues
du système embarqué des véhicules pour mieux gérer leurs maintenance.
Je suis intervenu dans la phase POC qui a précédé le projet pour valider l’approche ainsi que la pertinence des
données.
Ensuite et pour l’industrialisation des processus j’ai défini l’architecture, mis en place l’infrastructure de
collecte et traitement des données et participé a l’implémentation des pipelines de machine learning.
Le projet consistait essentiellement à la création d'une plateforme Data:
- initialisation de l'infrastructure adéquate.
- sensibilisation a l'état d'esprit Data et aux bonnes pratiques associées en général (DevOps, CI,...)
- Implémentation des premieres Data Pipeline qui exploitent la donnée du site en y appliquant les algorithmes
de Data Science et les mettre a disposition (exposition)
- Création d'un premier noyau de l'équipe Data.
Dans un premier temps, j’ai travaillé sur la mise en place d’un cluster HDP entièrement automatisée (install,
gestion, evolution ) avec ansible via l’API d’ambari.
Ensuite, j’ai travaillé sur l’industrialisation des algorithmes développés par les Data Scientists aussi bien sur
leur implémentation que sur la Data Pipeline dans la quelle ils s’intègrent: ingestion de données, nettoyage/
preparation des données, training, pré-calcul et enfin exposition des API.
La deuxième phase de ma mission fut de migrer le projet d’une infrastructure on premise vers le cloud Amazon
Web Services.
Le projet consiste essentiellement à la mise en place d’un datalake.
Je suis intervenu en tant architecte de l’équipe Data.
Dans un premier temps, j’ai travaillé sur la mise en place d’un cluster HDP entièrement automatisée (install, gestion, evolution ) avec ansible via l’API d’ambari.
Ensuite, j’ai travaillé sur l’industrialisation de l’algorithme de recommandation défini par l’équipe de datascientists: ingestion de données, nettoyage/preparation des données, training, pré-calcul et enfin exposition des API.
Actuellement je travaille sur la migration du cluster “on-premises” sur le cloud Amazon.
Mise place d’une plateforme offrant une vision 360 du client.
J’interviens en tant que expert Kafka et stream processing.
•
Phenix est une plate-forme distribuée d’ingestion, de préparation, d’analyse et d’exposition de données opérationnelles (ventes, stocks, logistique,..) en temps réel (ou commercial);
Je suis intervenu dés la phase de définition de la plateforme et défini en grande partie les choix architecturaux et technologiques aussi bien en terme de frameworks et backends, que de méthodes et outils de développement ou encore sur les aspects ‘ops’ (provisionning, deploiement, monitoring,…).
L’architecture que j’ai définie consistait en une plateforme avec deux composantes principale:
- une composante “on-line” qui était responsable premièrement de la collecte de données depuis les magasins et les backoffices de stock ainsi que les données de référentiels des bases centrales; ensuite une infrastructure de traitement de données en temps réel basée sur kafka,mesos et spark-streaming pour effectuer la normalisation, les agrégations et l’enregistrement des résultats soit dans Cassandra, soit dans Elasticsearch ou parfois les deux. En fin une couche d’API en micro-services expose ces résultat aux applications clientes.
- une composante off-line, qui se rapproche d’un datalake classique contenant toutes les données ingérée dans les topic kafka, les référentiels et quelques datasets d’enrichissement et qui servait a faire des traitement en batch pour sortir des métriques et des agrégations avec une profondeur, une précision et richesse plus importante que celles fournie par la composante online.
Outre les réalisations et les choix technique j’ai insisté et travaillé sur les bonnes pratique de développement (agilité, TDD, CI,…) et l’industrialisation de la solution (ansible, docker, rundeck) ainsi que les process de recrutement (exercices de code, entretien face a toute l’équipe,…) pour constitué une équipe de haut niveau.
Eureka est un moteur de recommendation pour les videos “live” et “à la demande”.
Je suis intervenu pour proposer et implementer une solution qui permet d’exploiter des algorithmes de recommandations développés par des équipes tierces (marketing et data-scientist).
La solution se base sur un cluster hadoop pour la préparation des données et le training des algorithmes; un cluster Elasticsearch et une base Redis comme backends et quelques micro-services (REST) qui exposent les résultats.
Le Data Innovation Lab est une initiative qui vise à promouvoir l'exploitation de la donnée et sa valorisation au sein des entités de AXA.
J'interviens en tant que “Expert Hadoop” pour la mise en place d'un cluster Hadoop “As A Service” pour les entités.
J’ai essentiellement conseillé sur les bonnes pratiques et les pièges à éviter pour la mise en place d’un tel projet. J’ai aussi accompagné l’équipe d’exploitation du cluster, et participer aux ateliers d’architecture pour les différents use-cases en développement.