- Similarité entre applications mobile : prétraitement des descriptions des applis provenant du Play Store (TextRank),
vectorisation des applis avec un modèle pré-entraîné de word embedding (FastText)
Application métier : cold start (jour 1) pour les campagnes d’installation d’applis
Résultat : ~ 1 million d’applis traitées, mise à jour mensuelle du modèle
- Catégorisation des applis mobile (norme IAB) à l’aide de plusieurs sources de données : catégorisation manuelle
(~1800 applis), propagation de labels en utilisant les valeurs de similarités entre applis, topic modelling sur les
descriptions des applis
Application métier : les équipes commerciales peuvent définir des persona marketing pour les marques clients
Résultat : labellisation non supervisée automatisée de ~ 3.5 million d’applis, accuracy 10 points supérieure
aux données tierce partie (40% vs 30%)
- Reconstruction de l’usage quotidien des applis mobiles par méthode supervisée (jeu d’entraînement ~550 Go)
Application métier : ajuster les prix des enchères (Real Time Bidding) pour chaque utilisateur (ranking/scoring basé
sur leur usage des applis)
Résultat : prédiction quotidienne pour 8 pays incluant 1.6 M utilisateurs aux US et 900 k utilisateurs en France,
recall ≥ 90% / precision ≥ 60% pour le top 100 des applis
semaines en 2019
- Chaque session dure une semaine complète et inclut cours, TP et un projet en groupe
- Outils : MongoDB, Cassandra, cloud AWS
Data scientist - Traitement de données et machine learning appliqués aux réseaux physiques
- Modélisation de séries temporelles (régressions linéaires et non-linéaires, deep learning) et calculs de
rendements de réseaux physiques (gaz, chauffage urbain...), proposition d’améliorations du système de production
- Outils : Python, Scikit-Learn, Keras, Dataiku, ElasticSearch & Kibana (visualisation), cloud AWS
Traitement du signal & images appliqué à la
géophysique
- Mise en oeuvre de méthodes avancées de traitement du signal pour améliorer les techniques d’imagerie du
sous-sol : modélisation physique du problème, conception et prototypage d’algorithmes, validation de la
méthode sur données sismiques
- Codes de calcul développés : déconvolution spatio-temporelle de signaux source, méthode d’interpolation 2D et 3D
de données irrégulièrement échantillonnées, déconvolution d’un signal source mobile avec prise en compte de
l’effet Doppler
- Traitement et visualisation de données massives (quelques To)
- Contribution à des projets innovants : définition de campagnes d’acquisition de données, preuve de concept (POC)
de nouvelles méthodes de traitement, proposition de brevets, collaboration avec des équipes inter-disciplinaires
- Mission de 9 mois chez un client (Shell, Assen, Pays-Bas) pour projet confidentiel, sous contrainte de temps et
d’utilisation machine : propositions d'amélioration de la séquence de traitement, présentation hebdomadaire des
méthodes employées et résultats obtenus
- Outils : C++, Fortran, Python, Unix & Shell, Perforce, logiciel propriétaire
Department of civil engineering
Assistant chercheur