Contexte : La Société Générale doit jumeler les entités Crédit du Nord et Société Générale. Il faut donc
trouver un moyen unique de gérer les données des deux entités.
Au sein de l’équipe Intégrateur, constituée de 7 personnes, nous intégrons le code dans les environnements de
production.
Missions :
● Création des tables Hive (interne / externe)
● Création et gestion des jobs Control-M
● Déploiement des applications avec des pipelines ci/cd sous Jenkins
● Gestion des incidents sous Jira
● Ecriture des scripts python et Shell pour la copie des données entre clusters
● Gestion des habilitations
● Déployer des jobs Talend
● Rédaction de la documentation
● Exécution des modèles AWX
● Utilisation des pipelines Jenkins
● Échange et coordination avec les intégrateurs de Bangalore.
Missions :
● Installer, tester et mettre en production les solutions d'infrastructure et logiciel Big Data
● Assurer le RUN des projets passés en production : Traiter les incidents de niveau 2 et 3 et remettre en
service dans les meilleurs délais
● Assurer le support HNO 24/7 (par des astreintes)
● Mettre en œuvre les actions correctives à court et moyen terme
● Accompagner la maîtrise d'ouvrage dans la validation des livrables et l'assistance à la recette
utilisateurs
● Renouvellement et création des certificats de sécurité.
● Mise en pilotage des services Hadoop (HDP) dans l'environnement BNP
● Participer à l'accompagnement au changement
● Maintien en condition opérationnel du parc BigData (1200 VM Redhat 6/7)
● Industrialisation des tâches récurrentes système et applicative (Ansible)
● Rédaction de document d'exploitation, pour le support utilisateur
2
● Développement de checks applicatif pour la supervision
● Création playbook de migration IOP vers HDP
● Industrialisation et déploiement (Ansible, bash)
● Upgrade du système d’exploitation RedHat (Rhel 7.9 actuellement)
● Application de Patch correctif sur les clusters
Environnement Technique : Ansible, Git, RedHat, HDP, Kerberos, LDAP, Ranger, Knox, Zookeeper, HDFS, Yarn,
Spark, Hive, Hbase, Jupyter, HDFS, Hue, RStudio, Python, CLOUD
Contexte : Industrialisation & Développement d'une plateforme Big Data pour répondre aux besoins
d'hébergement des données brutes du groupe, et qui seront traitées par les data scientistes des différentes
structures clientes du centre de compétence des solutions d'infrastructure de BYCN IT
Responsabilités :
● Réalisation de différentes études de cas :
→ Inventaire des métriques pertinents/vitaux sur Azure Data-lake storage afin de mettre en place
une solution adaptée pour remonter et centraliser les logs & métriques ainsi qu'une solution pour
les exploiter
→ Chiffrement des données confidentielles sur le Data-Lake (Savoir comment et quoi chiffrer parmi
les données confidentielles sur le Data-Lake afin d’assurer la protection et la confidentialité des
données)
→ Étude sur l'organisation du Data Lake (Réalisation d’un schéma d’architecture contenant les outils
installés dans chaque host ainsi que les bus de réseau et de communication)
● Création de graph & dashboard sur des métriques (Yarn, Spark, Tez, RAM)
● Création de VM sur Microsoft Azure
● Réalisation d’un playbook Ansible contenant des tâches telles que :
→ Groupadd & Useradd
→ Ajout du rôle : yum clean all
→ Add Confluent repo
→ Substitution d’un string, ou d’une chaîne de caractère
● Réalisation d'un script Python d'agrégation/Split des csv en fichier de 256 mo
● Migration de données source (5 To) d'un data lake vers un autre data lake
● Lister les répertoires de déversement des logs sur chaque nœud dans chaque host du cluster
(Hadoop, Kafka)
Environnement Technique : CentOS 7, Python, Elasticsearch, Kibana, Ansible, Hadoop/Spark, de l’Architecture,
Grafana, Microsoft Azure, GitLab, VMware
3
Contexte : Développement d'un use case avec Spark pour alimenter un cluster Hadoop afin de ressortir les
tweets avec des hashtags spécifiques et projeter des KPI
Responsabilités :
● Veille technologique
● Monitoring et supervision de l’infrastructure Big Data
● Mise en place d'un cluster Big Data
● Extraction des données (Tweet)
● Application des modèles de machine learning
Contexte : Étude de l’impact des crimes sur le prix du loyer dans les zones urbaines américaines
Responsabilités :
● Analyser les prix mensuels moyens du loyer par mètre carré pour différentes villes des USA de
novembre 2010 à janvier 2017
● Analyser les crimes perpétrés dans ces villes ainsi que leurs impacts sur l’augmentation ou la diminution
des prix
● Traitement et nettoyage des données
● Visualisation
● Prédiction des loyers 2017
Contexte : Gold standard morphologique extrait de Wiktionnaire
● Étude de la structure du Wiktionnaire ainsi que les standards du tagging morphologique
● Nettoyage des données et intégration dans une BDD
● Production d’une ressource