Migration en mode hybride de l’infrastructure physique big data vers le cloud
public
Définition du périmètre des services AWS nécessaire pour cette migration
Définition du catalogue de service pour les différents cas d’usage sur la plateforme :
Traitement au fil de l’eau
Traitement par lot
Traitement nécessitant un calcul d’analyse
Stockage des données
Définitions de l’architecture d’accès au cloud public depuis les datacenter SG
Rédactions des différents types de profil d’accès aux infrastructures du cloud public
ainsi que leurs périmètres d’actions ainsi que leurs droits (transformer cette
rédaction en un ensemble d’AWS config rules )
Début de la mise en place des profils et des droits grâce aux outils ‘accès et de
gestion de droit fournit par le cloud public
Les Technologies :
Env AWS gestion des droits : IAM, security Groups, NACL, aws Config …
Env AWS stockage : S3, RDS, DynamoDB, EMR
Env AWS analytics : Sagemaker
Env AWS Streamning : Kinesis data stream
Migration en mode hybride de l’infrastructure physique big data vers le cloud
public
Définition du périmètre des services AWS nécessaire pour cette migration
Définition du catalogue de service pour les différents cas d’usage sur la plateforme :
Traitement au fil de l’eau
Traitement par lot
Traitement nécessitant un calcul d’analyse
Stockage des données
Définitions de l’architecture d’accès au cloud public depuis les datacenter SG
Rédactions des différents types de profil d’accès aux infrastructures du cloud public
ainsi que leurs périmètres d’actions ainsi que leurs droits (transformer cette
rédaction en un ensemble d’AWS config rules )
Début de la mise en place des profils et des droits grâce aux outils ‘accès et de
gestion de droit fournit par le cloud public
❑ Migration en mode hybride de l’infrastructure physique big data vers le cloud
public
▪ Définition du périmètre des services AWS nécessaire pour cette migration
▪ Définition du catalogue de service pour les différents cas d’usage sur la plateforme :
➢ Traitement au fil de l’eau
➢ Traitement par lot
➢ Traitement nécessitant un calcul d’analyse
➢ Stockage des données
▪ Définitions de l’architecture d’accès au cloud public depuis les datacenter SG
▪ Rédactions des différents types de profil d’accès aux infrastructures du cloud public
ainsi que leurs périmètres d’actions ainsi que leurs droits (transformer cette rédaction
en un ensemble d’AWS config rules )
Début de la mise en place des profils et des droits grâce aux outils ‘accès et de gestion
de droit fournit par le cloud public
Cas d’usage sur les bases de données NoSQL avec une problématique distribution
de la donnée au fil de l’eau
▪ Rencontre avec les éditeurs pour la présentation des solutions
POC des produits dans le cadre d’un projet : Projet vision 360 de la banque de détail
France. Le projet consiste à améliorer la connaissance client et la mise en place d’une
vue unique du client aux yeux des conseillers bancaires.
▪ Techniquement le projet consistait à acheminer les activités du client ( les logs ) sur
les différents portails de la banque au fil de l’eau afin qu’ils soient analysés pour être
restitués mais aussi archivés
▪ Les Technologies:
NoSQL: MongoDB, Couchebase, Cassandra, Apache Hbase
Env Hadoop: Apache Kafka, Apache Nifi, MiNifi, HDFS
System: syslogNG, linux, Ansible
Surveillance et prévision des défaillances systèmes sur lequel repose les
applications bancaires
▪ Mise en place d’une plate-forme de surveillance pouvant accueillir une certaine
quantité d’événements journaliers (600 GI/jour)
▪ Transformation de ces événements
▪ Restitution à l’aide de dashboard
▪ Analyse des données afin de construire un modèle mathématique pour détecter à
l’avance des signes d’une défaillance système.
▪ Les Technologies:
Env Hadoop: Apache Kafka, HDFS, Apache Spark
Open source: Elasticsearch, logstach, Kibana
System: linux
Mise en place d’une infrastructure dédiée à la data science
▪ Cette infrastructure a pour objectif de fournir au data scientist tout un écosystème pour
construire, tester, mettre en production puis surveiller leurs modèles afin de les
améliorer.
▪ Les problématiques d’accès et de sécurité de la donnée ont été un vrai défi sur ce projet
Une autre problématique était aussi à prendre en considération celui du partage des
ressources (RAM/CPU) car étant une plate-forme mutualisée pour plusieurs data
scientist il fallait partager les ressources selon les besoins de chacun.
▪ Les Technologies :
Env Hadoop: YARN, Apache Spark
Open source: Rstudio, Jupyter, Pyhon, Python virtual Env
System: linux
Automatisation de la création d’environnement Hadoop éphémère
▪ Ce projet consiste à créer une offre autour de la création d’environnement de
développement éphémère Hadoop aux équipes métiers afin qu’ils puissent se
familiariser avec l’écosystéme Hadoop.
▪ Techniquement parlant ce projet consiste à automatiser les tâches de création de
l’environnement open source.
▪ Les Technologies:
Env Hadoop: Apache Ambari
Open source: kerberos, ldap, Python
System: linux, Ansible, Ansible Tower
Data gouvernance, mise en place de catalogue de métadonnée
▪ Appel d’offre pour trouver la solution, rencontre avec les éditeurs
▪ Lancement des POC avec un suivi des éditeurs retenus dans l’appel d’offre.
▪ Mise en place de la solution en production
▪ Les Technologies:
Env Hadoop: HDFS, HIVE
Solutions éditeur: Waterline data, Zeenea, Colibra, ABinitio
Open source: kerberos, ldap
System: linux, Ansible