ï§ Récupérer les données de différentes sources de données client
ï§ Extraction des données dans des tables partitionnées et clusterées dans BigQuery
ï§ Développement des pipelines de données en utilisant les DAGs Composer
ï§ Récupérer les données des tickets de caisse
ï§ Créer des tables partitionnées et clusterées dans BigQuery
ï§ Créer des dashboards en utilisant Looker
ï§ Définir l’architecture de l’application
ï§ Concevoir et définir le schéma de la base de données.
ï§ Concevoir et développer les différentes cloud functions.
ï§ Concevoir et développer les endpoints de l’API
ï§ Définir les paramètres et exposer l’API via Apigee
ï§ Définir les channels HIP de transfert de fichiers.
ï§ Notifier les utilisateurs de l’arrivée de nouvelles données en envoyant des emails SendGrid
ï§ Documenter l’API en utilisant Swagger
ï§ Tester l’API en utilisant Postman
ï§ Mise en production de l’API
A3CT : accélérer l’utilisation des données au sein des unités commerciales des régions aux marchés :
Développer des différents Dags pour automatiser la réception des données de différents sources (BVM, FCS…) en utilisant Composer (Airflow).
Extraction et chargement des données dans BigQuery et CloudStorage.
Calculer les scores pour classifier les clients en utlisant DataProc, DataFlow et Spark.
Développer les abonnements PubSub.
Industrialiser les différents Use Cases du machine Learning
Développement d’un API pour gérer la gouvernance des données.
Développement des scripts Glue pour traiter des fichiers des différents providers (Facebook, Youtube, Deezer.).
Extraction les IDE12 (identifiant d’œuvre musical entendu ou regardé) dans ces fichiers.
Construire une vision 360 en regroupant les données provenant des tous les providers dans un table pivot.
Stockage des données dans S3 et Elasticsearch
Visualisation des données dans Kibana et Tableau.
Documentation des différents scripts et processus développés dans Confluence.
Développer des flux Nifi pour exporter des fichiers excel GPS (gestion des planifications) de zone sécurisée vers HDFS
ï§ Développer des jobs Spark scala en utilisant IntelliJ pour transformer les données stockées dans HDFS en tables HIVE
ï§ Installation et configuration de Tableau Server 10.5
ï§ Développer un job Spark scala en utilisant IntelliJ qui lance plusieurs jobs Spark 1.6.2 en parallèle.
ï§ Déploiement d'une solution basée sur une méthode de système de recommandation afin de permettre à un site internet de voyage d'offrir des destinations personnalisées aux utilisateurs.
ï§ Stockage des données sur Hadoop (HDFS)
ï§ Intégration et manipulation des données sur des bases de données Apache Hive
ï§ Participation à l’intégration de la solution dans une application web service
ï§ Déploiement d'un algorithme Machine Learning sur Python.
ï§ Installation et configuration de HortonWorks sur Azure et découverte de l’écosystème
ï§ Stockage de données dans MongoDB
ï§ Ecriture des scripts Pig interrogeant ces données.
ï§ Développer des jobs Spark Scala.
• Formation certifiante
ï§ Présentation Big Data : Présentation de l’écosystème Big Data du point de vue technique, économique, ainsi que les différents uses cases et métiers.
ï§ Introduction à Python : Comment utiliser et faire des programmes en python
ï§ Ecosystème Hadoop : Introduction très détaillée aux modules de l’écosystème Hadoop, HDFS, HIVE Ambari, YARN, concept du MapReduce, Pig et Hive.
ï§ Ecosystème Spark : Introduction très détaillée aux modules de l’écosystème SPARK, à scala, au RDD.
ï§ Scraping des données : Crawl et API, Open Data, pour récupérer de la donnée du Web. Parsing de données aux formats JSON et XML.
ï§ Bases de données NoSQL : Apprendre à stocker et requêter des données sur différents types de base de données (Cassandra, Hbase, MongoDB et Elasticsearch).
ï§ Machine Learning: Machine learning distribué avec Spark MLlib
ï§ Data Visualisation : Kibana et Power BI.
ï§ KAFKA : Introduction à Apache Kafka et au principe des systèmes de publish-suscribe-messaging - Installation et configuration d’apache Kafka - L'architecture d’Apache Kafka (brokers, topics, producers, consumers) -Manipulation d’opérations Kafka - Apache Kafka & Spark en vue du traitement en temps réel (Real-timeAnalytics) et le monitoring.
ï§ Projet d’équipe : (e-reputation des candidats présidentiels) Scrapping des données du twitter et Facebook et traitement (analyse des sentiments) en utilisant spark et python et Kibana pour la visualisation des résultats.
ï§ Obtention du certificat avec mention Très bien
• Projets :
ï§ Refonte de l’application SPEED pour les entreprises clients de Bouygues Telecom
ï§ Développement des procédures stockées et pour la même application en utilisant Oracle
ï§ Etude de faisabilité de connecter Ceph avec Nifi
ï§ Installation et configuration de Hadoop sur Mesos
ï§ Ecriture des requêtes Impala et Hive sur l’ensemble des données
ï§ Ecriture des scripts Kafka (Producer & Consumer) en python et en scala pour gérer les sources productrices de données et consommateurs de données.
ï§ Stockage de données dans HDFS et ElasticSearch.
ï§ Installation et configuration de DC/OS