■ Accompagnement d’entreprises de toutes tailles dans le cadrage, la mise en oeuvre et le
pilotage de projets Data complexes
■ Formalisation du besoin, définition d’architecture et réalisation d’outils Big Data (ingestion,
nettoyage, DataOps…) à froid ou en temps réel
■ Animation de sessions de formation (2 à 5j) à l’état de l’art du Machine Learning / Big Data /
noSQL / Dataviz
■ Développement d’outils de Traitement du Language Naturel appliqués à la parole et à la
littérature scientifique (en cours de prototypage)
■ Participation et contribution aux évènements Data en France
■ Management commercial et financier, réponse aux appels d’offres et recherche de talents pour
accompagner la croissance de la société
■ Partenariats avec les institutions et acteurs privés de la Data en France
Conception et développement PySpark d’un outil de Data Quality sur un nouveau référentiel
Personnes
Définition d’une architecture cible sur cluster de 70 nœuds
■ Formations d’une équipe aux bonnes pratiques Spark et à la programmation fonctionnelle
■ Création de parser de données json entre API évènementielle et Kafka via PySpark
■ Réplication d’un algorithme de dédoublonnage existant sur outil INFORMATICA vers PySpark
■ Développement de modules et User-Defined-Functions pySpark génériques
■ Création de notebooks Jupyter pour transfert de connaissances
■ Industrialisation et optimisation de jobs pySpark
■ Recommandations stratégiques sur outils Big Data et algorithmes Machine Learning
(MAIF) - Traitement en masse de données stockées sur Hive et PostgreSQL à l'aide de PySpark
■ (MAIF) - Mise en production d’algorithmes de Data Quality en environnement distribué
■ Animation de la formation « Deep Learning via Tensorflow »
■ Animation de conférences en Machine Learning
■ Création et animation de formation à Kubeflow, création de use-cases sur GCP
■ Présentation plateformes de Data Engineering chez prospects (Dataïku, Trifacta, Dataproc)
■ R&D et définition d’algorithmes de Traitement du Language Naturel
■ (MAIF) - Implémentation d’algorithmes de prédiction de score d’attrition sur données
catégorielles
■ Veille technologique, recrutement, formation de nouveaux collaborateurs
Projet POC P8 création d’un référentiel noSQL pour la Caisse Nationale d’Assurance Maladie
■ Traitement en masse de données stockées sur HDFS et PostgreSQL à l'aide d’Apache Spark
■ Développement de composants Kafka (suite Confluent)
■ Création d'API REST de consultation de données stockées dans Hbase sur architecture
microservice
■ Conception et création d'une API de chiffrement de données sensibles en AES 256
■ Optimisation de jobs Spark à l’échelle (Référentiel de 100 millions d’individus et 9 milliards de
paiements) sur cluster de 37 noeuds dont 4 noeuds Spark managés par YARN
■ Chiffrage et conception User Stories
■ Proxy Product Owner : Suivi des indicateurs projets via outils de BI (Tableau, PowerBI)
■ Pilotage stratégique projets transverses (veille marchés, stratégie marketing moyen terme)
Formation JAVA / ANGULAR
■ Etude de l’écosystème Java
■ Développement backend et frontend
■ Analyse de l’état de l’art
■ Mise en oeuvre d’un algorithme Branch & Bound pour l’entrainement d’un séparateur à vaste
marge (SVM)
■ Etude de la robustesse aux outliers des algorithmes de classification supervisée
■ Implémentation Python d’algorithmes issus de publications scientifiques
■ Participation à la « Deep Learning Summer School » organisée par l’université
■ Participation aux activités de la chaire (Conférences, REXs, lectures)
■ Suivi et valorisation des actifs pour assurer le reporting financier de la division
■ Mise en place d'une méthodologie de calcul des coûts de revient
■ Développement d'une application de prévision de stocks à moyen et long terme
■ Contrôle des données de production