Consulting company specialized in data and web app products
RECENT MISSIONS:
➢ Chanel (Brand Protection Unit): Audit, optimization and maintenance of 4 web apps
hosted on Azure and used for combating counterfeit products and the anti-diversion
• Audit of web apps and web scrapers (using scrapy python library)
• Optimization and evolvement of the architecture
• DevOps CI-CD automation
➢ LFP (Ligue Football Professionel): Cloud architecture and pipelines development
• Design of the architecture using Azure Data factory and Data Lake components
• Development of U-SQL queries and ADF pipelines
• DataOps CI CD automation
• Support of the Power BI dashboards development
➢ CACEIS (French bank): Architect of the data lake and Hadoop administrator
• Design of lambda architecture using Hadoop ecosystem components like Hive,
Hbase, Kafka, Ranger and Spark
• Support of the development Spark SQL and streaming jobs using Talend
• Development and deployment of streaming dataflow using StreamSets
• Hadoop HDP cluster administration and upgrade
• Study of HDP migration to CPD datacenter
• Install & configuration of Talend tools (TAC, jobserver and Studio)
• Deployment of machine learning model in real time using StreamSets and
Python
• Data governance: data lineage and monitoring using Apache Atlas and custom
development
Architect – audit de solutions d’anti-contrefaçon et anti-détournement
Durée : 6 mois
Client : Chanel (Brand protection unit)
- Audit de l’architecture data et applicative
- Audit de 4 web apps d’anti-contrefaçon et anti-détournement
- Audit du script de scraping Python
- Entretien avec les différents acteurs techniques
- Livrable recommandation d’architecture et plan de remédiation
- Suive de la mise en place du plan de remédiation
- Développement d’un flux ETL et déploiement des pipelines sur Azure Data Factory
Cabinet de conseil spécialisé en Data Science et stratégie marketing
Directeur technique chez EkimetricsCTO
-Fondateur de l’équipe BI & Big data (Data Operations Team)
-Organisation, gestion et pilotage de l’équipe data opération (12 consultants en data engineering)
-Direction et implémentation des projets internationaux BI et Big data
-Contribution aux réponses aux appels d’offres et à l’avant
-vente (propales / propositions commerciales)
-Recueil et analyse des besoins des clients
-Organisation et pilotage des livraisons des projets
-Définition des cadres technologiques ou méthodologiques définissant la stratégie d’architecture
-Définition de l’approche de modélisation adapté au contexte du projet
-Rédaction des spécifications fonctionnelles et techniques
-Définition des indicateurs d’évaluation et de choix des solutions
-Identification des opportunités technologiques et création d’un plan d’orientation technologique susceptible d’apporter de la valeur business.
-Responsable des recrutements et d’encadrement des ressources
-Gestion des plannings de l’équipe (staffing prévisionnel / chiffrage)
-Formalisation des processus d’entreprise
-Mettre en place les plateformes de veille les plus performantes
-Suivi budgétaire et planification
Missions:
1.
Data Lake & Data Management Platform:
Réconcilier l’ensemble des visions / Connecter des systèmes différents pour générer
des analyses et visualiser le parcours
client / Rationaliser la production des tableaux de bord
Mise en place d’un data lake chez CACEIS
- Définition d’une architecture Lambda (validée par McKinsey)
- Suivi de la mise en place de l’architecture
- Administration de la plateforme Hadoop (Hortonworks)
- Installation et configuration de l’environnement PPROD et PROD : Talend (TAC et JobServer) + StreamSets +
Vertica
- Développement et déploiement des jobs streaming (Streamsets & Talend big data real time)
- Industrialisation et déploiement des modèles machine Learning en PROD
- Data gouvernance : data lineage et monitoring de la qualité des données sur Apache Atlas
oMise en place de l’environnement de recette et de de production (cluster hadoop de 6 nœuds)
oMise en place d’un data lake qui intègre les données CRM, log de navigation du site, flux de retour des compagnes emailing et les données du backend
En termes de volumétrie le data lake présente 15 To et certaines tables sont à l’ordre de quelques milliards de lignes
oData integration et data processing automatisé
oMise à disposition d’un data mart de reporting
oGénération d’un flux quotidien qui permet d’alimenter un DTM de marketing
Data mart de datamining et implémentation des scores/segmentations :
Intégration et traitement des données
Client:
Constructeur automobile japonais
Durée: 24mois
oCentral Database
▪DTM de datamining actualisé en fréquence hebdomadaire
▪Calcul des sources pour plus de 20 pays (ERD, APV ...)
▪Envoi des scores au DTM marketing
▪Automatisation des différents flux
oProgramme re-marketing:
▪Automatisation des arbres de décision
▪Planification des broadcasts en mode trigger
oCRM et gestion des compagnes:
▪Intégration des données CRM
▪Croisement des données CRM avec le flux retour emailing (clicks, opens, hardbounce,sof
tbounce, unsubscibes...) pour mesurer les performances des compagnes (ROI)
oData cleansing:
▪Nettoyage des données en provenance du web
▪Certification des données (emails, adresse, tel ...)
▪Export automatique au BDD centrale
oReporting espace client en ligne:
▪Mise en place d’un datamart
▪Croisement des données CRM, web et omniture
▪Génération des rapports
oDealer data hub:
▪Réalisation d’un data hub qui agrège les données à la maille concessionnaire en provenance
d’une dizaine des sources
▪Le hub est devenu un provider de données pour plusieurs applications
▪Vision dealer unique et calcul des scores
▪Génération des rapports
oB2B data enrichement:
Formation professionnelle
▪Migration des bases de données locales dans la BDD centrale
▪Web scrapping automatisé pour enrichir les données des socié
tés pour une dizaine de pays et export vers la BDD centrale
oAcademy Project:
▪Automatisation des flux en provenance des plusieurs sources
▪Génération des rapports automatisée
oUEFA champions league
▪BDD permettant la gestion des votes
▪Gestion des compagnes marketing
▪Envoi des scores aux différents entités Nissan
▪Génération d’exports automatique à destination de la BDD centrale
Environnement:
Hortonworks + HUE + YARN +MapReduce + Hive + Sqoop + Pig + Kerberos + Python + API
Google AdSense + Google AdWords + AT Internet + Eulerian + Postgre SQL + Tableau Software
3.
Data mart de reporting et génération des rapports :
Centralisation des données de vente des véhicules (VN), d’après ventes et des compagnes marketing dans un data mart de reporting pour mesurer les ROIs des compagnes et calcul
er les KPIs (chiffre d’affaire, nombre des passages atelier par réseau ...)
Client: Constructeur d’automobile français
Durée: 3mois
oIntégration des données des ventes, d’après ventes et des compagnes marketing
oApplicationd’algorithme de qualité de données (matching, certification ...)
oCalcul des KPI
oRestitution des rapports dans Excel
Environnement:SQL Server 2008 R2 + SSIS + C#4.
Matching des clients, possessions et des véhicules:
Mise en place d’un référentiel client unique.
Client: Constructeur d’automobile français
Durée: 6mois
oIntégration des données dans hadoop (Hive)
oDéfinition des règles de matching avec les équipes métiers et des règles de fusions des données
oImplémentation de l’algorithme de matching
oMise à disposition d’un référentiel via des exports automatisée
Environnement: Hadoop + Hive + PostgreSQL + Python + Shell5.
Threat Intelligence Platform:
Mise en place d’une plateforme permettant la détection des menaces en temps réel en scorant les logs en provenance des sites internet des abonnés.
Client: Première société de service spécialisée en cyber sécurité en France
Durée:10 mois
oChargement des données en temps réel Elastic Search
oChargement des données sources dans HDFS
oTransformation des données sources (IOC) en sous évènements (split URL, File, FQDN, ASN, IP Address)
oEnrichissement des évènements générés (hashkey ...)
oTraitement des évènements,rapprochement des évènements (matching) et
calcul des scores
oStockage des données dans Elastic Search
oMise à disposition de l’API via elastic search pour requêter les données via la front end
oGénération de graph pour analyser le lien entre les menaces-
Environment: Cloud OVH+ Hortonworks + Spark + Scala + Elastic Search +HDFS + KIBANA
+ API6.Data warehouse suivie consommation électrique(compteurs linky):
Accompagnement sur l’architecture, modélisation et intégration des données dans le data warehouse.
L’objectif est de mettre à disposition des abonnées une plateforme de reporting
accessible sur leurs espace client pour analyser la consommation
Client:
Fournisseur et producteur fran...