Mise en place des flux d'alimentation, des règles de gestion/calcul de KPIs et reporting métier
Développement d'outil de reporting
Environnement: Azure Data Lake Analytics + Azure Data Factory + Azure Data Lake Storage + Microsoft PowerBI
Recueil du besoin et élaboration de la liste des exigences pour la mise en place d’un Datahub
Participation à la définition de l’architecture cible du DataHub et à la rédaction du dossier d’architecture et des
propositions d’évolution réseau et d’architecture du cluster
Définition des services transverses du DataHub et des bonnes pratiques pour la gestion d’un cluster mutualisé
Accompagnement et conseil pour les futurs projets du DataHub et initiation du programme d’acculturation Big Data
Développement Java spark et configuration/administration hadoop
Environnement: HDP Hortonworks + Teradata + Python + Spark + Java + Scala
Développement et mise en place d’une solution data gouvernance et conformité GDPR
_.NET + Microsoft SQL Server + Oracle + Db2 + Hortonworks + Cloudera + HDFS + NLPDéveloppement et mise en place d’une solution data gouvernance et conformité GDPR
_.NET + Microsoft SQL Server + Oracle + Db2 + Hortonworks + Cloudera + HDFS + NLPMigration des traitements d’audit IT de 5 ERP en SQL Server vers un environnement Big Data
Intégration de données issues des ERP dans des bases Impala et industrialisation de la phase ETL via SSIS
Adaptation et optimisation des traitements Data Analytics (SQL & T-SQL) en HQL et scripts C# en Big Data
Partage des bonnes pratiques Big Data : architecture, performance et optimisation en HQL, ordonnancement …
Pilotage du projet Data Management (contexte & cluster Big data)
Mise en place et suivi de la roadmap du Lab Big Data
Partage des bonnes pratiques Big Data : industrialisation des process, architecture, ingestion de données, …
Pilotage de la production d’une application dans le respect des délais, du budget et de la qualité attendue
Animation et coordination de l’équipe projet, les représentants métier et les prestataires
Validation des spécifications technico-fonctionnelle, modèle de données, méthodes de calcul et processing des
données ainsi que l’architecture technique
Application dédiée aux magasins pour le suivi de : la performance des actions commerciales, le comportement d’achat
des clients, l’efficacité du programme de fidélisation, la couverture réseau et des zones de chalandise
Définition des besoins métiers / Animation et coordination de l’équipe projet et les représentants métier
Planification et suivi du projet, en assurant le reporting auprès des instances de gouvernance
Interlocuteur privilégié du client interne et le garant des engagements
Pilotage des collaborateurs et/ou prestataires sur du projet mené dans un contexte national ou international (méthode
agile : Kanban)
EkiMetrics: Cabinet de conseil spécialisé en Data Science et stratégie marketing
1. Audit SI & valorisation des données :
Client :
Durée : 2 mois
o Audit du système d’information et identification des points forts et points faibles de la plateforme existante
o Définition de la stratégie et l’architecture cible ainsi que l’animation d’ateliers avec les différents utilisateurs
o Elaboration de plans d'action pour structurer et fiabiliser les données
o Proposition de roadmap d’exploitation opérationnelle des données auprès des responsables métiers
2. Data Lake & Data Management Platform :
Réconcilier l’ensemble des visions / Connecter des systèmes différents pour générer des analyses et visualiser le parcours client
/ Rationaliser la production des tableaux de bord
Client : (Ex ComprendreChoisir) – Site en Top 100 Nielsen des plus fortes audiences Internet
Durée : 10 mois
o Pilotage du projet et animation des comités de pilotage (méthode agile : Kanban et Scrum)
o Rapprocher les acteurs métiers de la donnée en leur permettant de comprendre et faire confiance aux données disponibles
et fournies par plusieurs acteurs impliqués dans ce projet
o Réaliser la phase d’immersion et les entretiens avec les métiers et l’équipe technique pour bien cadrer les besoins
o Validation des besoins et des méthodes de calcul (avant ces traitements étaient sous Excel)
o Rédaction des spécifications fonctionnelles utilisées comme référence unique partagées avec les différents acteurs
o Benchmark et choix de l’infrastructure matérielle et des technos :
- Choix de la distribution Hadoop (Hortonworks) et du matériel qui composera le cluster Big Data
- Sélection des composantes de l’écosystème Hadoop (Hive, Sqoop, Pig, Kerberos, Python) et assurer la durabilité dans le
temps face à la croissance continue du volume de données
o Modélisation du Datalake (schemaless et flocon de neige) et du Datamart de reporting (flocon de neige)
o Rédaction des spécifications techniques, partage des modèles et pilotage des échanges data avec les acteurs (certification,
politique et règles d’échanges)
o Suivi des avancements, gouvernance des données et remontée d’alertes
o Coordinateur des échanges entre notre équipe technique, le client et deux acteurs externes (plateforme de digital analytics
+ CRM & emailing broadcaster)
o Recette et validation des développements et calculs à déployer
o Développement avancé des requêtes HQL et analyse approfondie des résultats
o Optimisation des requêtes sous Hive en alternant entre le YARN et le MapReduce suivant la complexité de requête
o Utilisation de Sqoop pour acheminer les métriques et KPIs vers l’environnement de Reporting (PostgreSQL)
o Expliciter les règles de cleansing et de calcul en production et formaliser les processus et service « data » (stewardship,
helpdesk, ….)
o Industrialisation des traitements et processus
o Conception et création des rapports sous Tableau Software
o Environnement: Hortonworks + HDFS + HUE + YARN +MapReduce + Hive + UDF HQL en Java + Scripting shell + Sqoop + Pig
+ Kerberos + Python + Google AdSense + Google AdWords + AT Internet + Eulerian + PostgreSQL + Tableau Software
3. Data Lake & Data Management Platform :
Réconcilier l’ensemble des visions / Connecter des systèmes différents pour générer des analyses et visualiser le parcours client
/ Rationaliser la production des tableaux de bord
Client : Spécialiste dans l'isolation de l’habitat et la menuiserie sur-mesure
Durée : 8 mois
o Idem que le projet Datalake en dessus sauf que pour celui-là le cluster était hébergé et géré par le client
o Proposition des nouveaux sujets et missions pour accompagner le client dans sa digitalisation
o Optimisation de la performance digitale et quantification des ROIs avec des analyses implémentées dans l’écosystème
Hadoop
o Conception et création des rapports sous Tableau Software
o Conseil sur les choix des infrastructures et technos
o Benchmark sur les différentes solutions proposées sur le marché et études comparatives :
Quelle distribution Hadoop : Hortonworks vs Cloudera
Quel outil de Reorting : Tableau Software vs QlikView vs TIBCO Spotfire
Quelles données : Open Data (météo, sociodémographiques de l’INSEE) + Google AdWords
Environnement: Cloudera + HDFS + HUE + YARN + MapReduce + Hive + UDF HQL en Java + Sqoop + Pig + Google AdWords
+ Eulerian + Open Data + PostgreSQL + Tableau Software + Scripting shell
Big Data & Hadoop & NoSQL:
Evangélisation technologique pour le client (Think Big) / Test & Learn Expérimentations & Proof of Concepts / Identification des
leviers d’innovation et leurs valeurs ajoutées / Analyse agile
Client :
Durée : 18 mois
o Evangélisation technologique et déploiement des premiers PoCs et cas d’usage Big Data dans l’automobile
o Cadrage stratégique et accompagnement sur la mise en place de l’environnement Hadoop
o Import et analyse des gros volumes de données sur un cluster Hadoop
o Utilisation de Hive et Pig pour le calcul des KPI et la génération des rapports
o Détection de corrélation entre les ventes véhicules neufs, les contrats garantie/entretien/extension et les passages en
atelier (APV)
o Mesure des taux de conversions multicanaux des leads en commandes (CRM, Digital, …) via le « Matchnig flou »
o Conception et mise en place d’une base de données orientée graphe (Neo4j) pour analyser les infos remontées par les
capteurs des véhicules connectés (conduite, alertes, …) / Étudier la proximité sur les comportements similaires
Conseil et accompagnement sur un projet d’optimisation du dispositif de reporting de la banque répondant aux exigences suivantes : 1-Totalement auditable, 2-Scalable, 3-Agile, 4-Résilient au changement, 5-Automatisé, 6-Garant de la qualité de données
Conception, modélisation et mise en place d’un Data Warhouse avec l’approche méthodologique, fonctionnelle et applicative de DataVault 2.0