Migration des jobs Spark/scala on premise vers GCP
Optimisation des traitements
Intégration des données de différentes sources
Documentation
Missions
â¼ Formalisation des besoins
â¼ Rédaction des documents techniques
â¼ Ingestion des données dans Cloud Storage
â¼ Identification de l’architecture et les outils de travail
â¼ Import des données dans un bucket Cloud Storage
â¼ Développement des jobs Dataproc/Dataflow de
transformation
â¼ Implémentation des tests unitaires
â¼ Sauvegarde des données dans Cloud Storage
â¼ Analyse des données avec BigQuery
â¼ Création de tables BigQuery pour requêter les données
â¼ Planification des traitements avec Cloud Composer
(Airflow)
â¼ Utilisation de Cloud logging, Monitoring
â¼ Déploiement continue avec Cloud Build
â¼ Stockage des artefacts dans Artifact Registry
â¼ Optimisation des traitements Dataproc
â¼ Migration des jobs dataproc en jobs dataflow (Java)
â¼ Mise en homologation
â¼ Mise en production
â¼ Veille technologique
â¼ Documentation
Domaine Big Data
Projet : Revue analytique, Revue des comptes consolidés, certification comptable, refinancement implicite
Equipe initiale de 15 personnes (RESG/CFT/FIN)
Domaine Big Data
Projet principal : Référentiel Client Groupe (RCG)
Equipe de 12 personnes.
Problématique : Centralisation de tous les logs des bases de données et analyse
MISSIONS
â¼ Etudes de besoins utilisateurs (DBA / MOE)
â¼ Benchmark : Splunk vs Graylog
â¼ Etudes des solutions techniques possibles
â¼ Réalisation d’un POC
â¼ Installation des outils :
Filebeat, Kafka, Streamset, Elasticsearch, Kibana
â¼ Configuration de l’agent Filebeat
â¼ Configuration de Kafka et création des topics
â¼ Création de pipelines et transformation des données avec Streamset
â¼ Stockage des données dans Elasticsearch
â¼ Création des Dashboard avec Kibana
â¼ Rédaction de la documentation
â¼ Présentation de la solution aux utilisateurs
Entité du groupe crédit agricole qui gère la partie investissement et financement
Utilisateurs : DBA, MOE, Incidents Manager, Incidents problem
Problématique :
- Comment automatiser les rapports sur les incidents de production ?
- Développement de nouveaux modules pour une application qui contient tout l’inventaire de CACIB côté
infrastructures (Clusters, Hosts, Applications, Databases, etc., …)
Exemple : Dashboard sur les incidents de production, test de DRP (Disaster Recovery Plan), test de Licence, Monitoring des
bases de données
MISSIONS
â¼ Etudes de besoins utilisateurs
â¼ Etudes des solutions techniques possibles
â¼ Création d’un datalake
â¼ Stockage des données sur HDFS
â¼ Création de jobs Spark pour analyser les données
â¼ Création de Dashboard avec Zeppelin
â¼ Rédaction de la documentation
â¼ Formation des utilisateurs
Problématique :
- Migration technique de Hortonworks vers Cloudera
- Mise en place de norme de développement de jobs Spark
- Migration des flux Talend vers Spark/scala
- Etude de faisabilité technique
- Analyse, conception et implémentation des besoins métier avec Spark/Scala
- Intégration et déploiement continue via jenkins/Ansible (awx)
- Planification des traitements dans control M
- Optimisation des traitements Spark/scala
- Veille technologique
- Documentation
- Correction des bugs/anomalies en production
- Cryptage des données
- Alimentation du cube SSAS
- Archivage des données
- Animation des réunions
- Intégration des données de sources diverses (fichiers, base de données, API)
MISSIONS
â¼ Analyse du besoin et ateliers de cadrage
â¼ Etude de faisabilité technique
â¼ Estimation et planification
â¼ Rédaction des spécifications techniques
â¼ Migration des flux Talend big data vers Spark/Scala
â¼ Maintien de l'exploitabilité des développements
â¼ Gestion des interactions avec les utilisateurs tout au long du
projet
â¼ Support (Documentation technique et mise à jour des documents
associés)
â¼ Aide au suivi de production
â¼ Analyse, Conception et implémentation des jobs Spark par rapport
aux règles métier
â¼ Développement des tests unitaires
â¼ Développement des pipelines d’intégration continue avec Jenkins
â¼ Développement des Playbooks ansible -générique) de
déploiement des jobs
â¼ Planification des jobs avec Control M
â¼ Mise en homologation
â¼ Mise en production
â¼ Correction des anomalies
â¼ Mise en place d’une norme de développement des jobs Spark
â¼ Supervision des développements
â¼ Gestion des tables externes Hive
â¼ Alimentation des tables PostgreSQL avec Spark
Projet Personnel
Migration de traitements Spark vers Databricks sur GCP
TACHES
â¼ Création de Workspace
â¼ Gestion des clusters
â¼ Implémentation des règles métier avec Databricks/Spark
â¼ Planification des traitements
â¼ Création de tables delta lake
â¼ Sauvegarde des données
â¼ TMA
â¼ Formation des utilisateurs
â¼ Veille technologique
â¼ Documentation
Problématique :
- Création et alimentation du datalake (différentes sources de données)
- Mise en place de solution générique d’import de données dans Hadoop avec système de reprise (plus de 500 tables)
- Import de données dans Hadoop
- Export de données vers Teradata
- Regroupement des clients
- Génération des identifiants groupe
- Déduplication des données
- Génération des fiches de paramétrage
- Respect des contraintes RGPD
- Séparation des données personnelles et non personnelles
- Développement de jobs avec des mécanismes de reprise
- Création des tables techniques de paramétrage
- Génération des tables cibles Hive et Hbase
- Scripting Shell, Awk, Sed
- Manipulation et extraction des données à partir de fichier par position
- TMA Hadoop
MISSIONS
â¼ Création de datalake (données provenant de différentes
sources de données)
â¼ Import de données dans Hadoop
â¼ Export de données vers Teradata
â¼ Génération des fiches de paramétrage
â¼ Développement de jobs talend
â¼ Développement d’un job générique d’import des données
d’une source externe vers Hadoop
â¼ Développement d’un job générique d’export des données
de Hadoop vers Teradata
â¼ Automatisation de déploiement de job sur la TAC
â¼ Développement de scripts python pour générer des fiches
de paramétrage du job d’import
â¼ Développement de scripts python pour générer des fiches
de paramétrage du job d’export
â¼ Développement de scripts python pour générer des fiches
de paramétrage du job d’import de fichier vers Hadoop
â¼ Génération des commandes SQL via Talend
â¼ Insertion des données dans Hive via Talend
â¼ Insertion des données dans HBase via Talend
â¼ Rédaction de manuel d’utilisateur
â¼ Formation des utilisateurs (job d’import)
â¼ Respect des contraintes RGPD, TMA
â¼ Release d’anciens jobs
â¼ POC de comparaison du moteur de déduplication
â¼ Développement de jobs Spark pour le POC du moteur de
déduplication des données
â¼ Mise en place de table de suivi de job permettant de gérer
les reprises
Problématique :
- Générer un corpus de document dans lequel se répètent plusieurs mots croisés.
- Générer la matrice des occurrences des mots croisés pour tout le corpus (ensemble de documents)
- Projet réalise sur les Framework Hadoop et Spark
TACHES
â¼ Implémentation des jobs map/reduce pour
â¼ générer le corpus avec Hadoop (java)
â¼ Implémentation des jobs spark pour
â¼ générer le corpus avec Spark (scala)
â¼ Implémentation des jobs map/reduce pour
â¼ générer la matrice des co-occ...