Projet
Mise en place du Datalake pour la française des jeux en mode open source en respectant l’architecture lambda et Mise à disposition des données provenant de différentes sources (Streaming et batch) afin d'être proprement exploitées par des acteurs tierces.
Mission(s) et réalisations
Mise en place du Datalake :
Développement/MEP des formules Salt pour instanciation de cluster kafka en Swarm avec le build des images Kafka, Zookeeper et Kafka Manager par Gitlab CI.
Développement/MEP des formules Salt pour instanciation de cluster ELK avec le build des images Elasticsearch et Kibana par Gitlab CI.
Développement/MEP des formules Salt pour instanciation de cluster Nifi en Swarm avec le développement des nouveaux processors et les intégrer et le build de l’image par Gitlab CI.
Tunnig de la couche speed layer pour avoir des très bonnes performances (≃1.7 milliards d’évents/jour).
Migration de ELK à chaud de la version 6.x au 7.x.
Développement/MEP des formules Salt pour l’instanciation à chaud de cluster Elasticsearch hors containerisation.
Développement/MEP des formules Salt pour l’instanciation de l’écosystème de Hadoop (Ambari, HDFS, Hbase, Phoenix, Spark, Hive, Kerberos, Ranger, Knox…) avec la distribution Hortonworks.
Développement/MEP des formules Salt pour l’instanciation de Jupyter et Hue pour les Data Scientists en Docker et avec le build des images par Gitlab CI.
Développement des formules Salt pour le téléchargement des jobs Spark de Nexus et le déploiement dans les serveurs d’ingestion.
Développement des formules Salt et un script Python pour la création des tables Hive avec les vues.
Gestion des problèmes liés à la sécurisation du cluster (kerberos, Ranger, SSL, KNOX).
Administration du Datalake :
Configuration de cluster ELK avec les rollovers, sharding et les templates des index et les différents paramètres.
Création des espaces kibana pour les équipes et la gestion des droits d’accès aux différents index et dashboards.
Création des topics Kafka avec leurs paramètres avec Kafka Manager.
Création des dashboards dans Grafana pour le monitoring de la couche Speed Layer.
Développement :
Développement des workflow Nifi pour l’ingestion des events dans Kafka en streaming.
Développement des workflow Nifi pour la lecture de Kafka, nettoyage, enrichissement et l’indexation des events de type logs dans Elasticsearch.
Création des dashboards Kibana pour la visualisation des index.
Développement des jobs Spark en Scala, Java Maven et avec le build par Gitlab CI pour :
Ingestion des fichiers de différents formats dans HDFS en Format parquet compressé et partitionné.
Archivage des fichiers en format brut.
Chiffrement des données personnelles (Pseudo anonymisation).
Déchiffrement de la donnée par Spark ou Hive (développement des udf Spark et Hive).
Purge des données personnelles après un certain temps.
Compactage des petits fichiers dans HDFS et s'assurer que le nombre de fichiers ne prolifère pas.
Traçage et récupération des métadonnées pour toutes les étapes de traitement de la donnée et les indexer dans Elasticsearch.
Automatisation et orchestration des chaines de traitement avec Airflow.
Création des dashboards avec Kibana pour tracer tout le parcours de la donnée.
Amélioration de performance des jobs Spark.
Accompagnement des data scientists.
Optimisation des traitements data science (les jobs Spark en Python).
Projet
Ingestion des donnés dans DataLake en mode batch et streaming et développement et évolution des cas d’usage.
Mission(s) et réalisations
Organisation des meetings avec les clients pour définir le besoin.
Analyse des besoins utilisateurs en termes de données à intégrer dans le Datalake.
Développement des jobs Spark pour ingérer les données dans Datalake sous différents formats en mode batch.
Développement des jobs Spark Streaming pour consommer depuis Kafka et consolider les évents (logs) dans des fichiers afin de les ingérer dans Datalake en mode batch (archivage des logs).
Développement des jobs Spark pour récupère les logs archivés dans HDFS pour un intervalle de temps et les réindexés dans Elasticsearch.
Développement des jobs Spark pour alimenter en streaming les tables Hbase.
Automatisation des purges de données dans Hbase.
Amélioration de la performance des jobs Spark.
Préparation et réalisation des tests unitaires, non-régression et d’intégration.
Développement des DAG (Pipeline) pour automatiser le lancement des jobs Spark et les scripts Hive.
Lead de version pour la mise en pré production et production (piloter l’équipe et la version).
Réalisation de la revue de code avec les Développeurs.
Participation aux tests de Qualifications (Pré production /Production).
Projet
Développement des connecteurs SimulateBox & TestBox pour Kafka et Elasticsearch.
Mission(s) et réalisations
Instanciation de cluster Kafka et Elasticsearch.
Déploiement de la solution SimulateBox et TestBox dans un environnement de test.
Développement des Connecteurs SimulateBox et TestBox pour Kafka et Elasticsearch.
Test de bon fonctionnement des connecteurs Kafka et Elasticsearch.
Développement des tests unitaire par la solution TestBox.
Simulation de Kafka et Elasticsearch par la solution SimulateBox.
Rédaction de guide utilisateurs.