- Rédaction et publication d'un article explicatif et illustratif sur la
régression par processus gaussien
- Rédaction et publication d'un article comparatif entre
l'optimisation bayésienne et le CMA-ES pour l'optimisation des
hyperparamètres des algorithmes ML
- Rédaction d'un article sur l'impact de l'intelligence artificielle sur le
sport.
- Développement d'une nouvelle métrique
(MutualInformationSimilarity)
- Amélioration du format d'affichage du Quality Report
- Récolte des données de temps de traitement des différentes
tâches effectuées lors de la création d'un order.
- Réorganisation des données.
- Analyse statistique (méthodes les plus fréquemment appelés, les
plus longues...)
- Exploitation de l'analyse statistique pour élaborer un plan
d'optimisation du traitement.
- Amélioration du traitement de création d'un order de 32min en
moyenne à 1min20.
- Développement d'une application d'extraction et transformation
de données MFTA en vue d'alimenter le datawarehouse
- Création de rapports statistique et de data visualisation mesurant
la performance des services de garde (précision des transactions,
efficacité opérationnelle...)
- IT Engineer pour KBL (Kredietbank Luxembourg):
- Dans le cadre du démantèlement du Mainframe, migration des JCL
en shell script et réécriture des utilitaires en python.
- Développement d'une application Talend d'alimentation d'Archibus
à partir des données RH
- Création d'un rapport statistiques (taux d'occupation par service,
facturation par service... -> avant/après réorganisation)
- Développement d'une application Talend d'alimentation de
Planview à partir des données RH.
Projets réalisés dans le cadre de la formation
professionalisante Data Scientist
Application au service de la santé publique : analyse des
données Open Food Facts
Validation de la qualité du jeu de données
Description des informations contenues dans le jeu de
données
Analyse univariée et bivariée (distributions, tests de
corrélations, test du chi-deux..)
Régression linéaire
Prédiction des émissions de la consommation totale d'énergie
de batiments de Seattle.
Validation de la qualité du jeu de données
Analyse exploratoire
Test de différents modèles de prédictions (ElasticNet,
RandomForest, SVR, AdaBoost Regressor)
Segmentation des clients d'un site e-commerce.
Validation de la qualité du jeu de données et analyse
exploratoire
Test de différents modèles de réduction de données (t-SNE,
PCA, KernelPCA) et de clustering (DBSCAN, KMeans,
MeanShift)
Simulations pour déterminer la fréquence nécéssaire de
mise à jour (contrat de maintenance).
Catégorisation des biens de consommation d'un marketplace
e-commerce. (étude de faisabilité)
Validation de la qualité du jeu de données et analyse
exploratoire.
Extraction des features texte (bag of words, word2vec, BERT,
USE) et comparaison des clusters Kmeans avec target.
Extraction des features image (SIFT, ORB, SURF, Transfert
learning VGG-16) et comparaison des clusters Kmeans.
Implémentation d'un modèle de prédiction de risque de
défaut de paiement pour une société de prêt.
Validation de la qualité du jeu de données et analyse
exploratoire.
Développement de l'API du modèle de prédiction (FastAPI) et
déploiement sur serveur Heroku.
Création du dashboard (Streamlit, f-beta score, trade off
recall/precision, interprétation globale, interprétation locale
via LIME)
Développement d'une chaine de traitement d'image pour une
application de reconnaissance de fruit.
Preprocessing des images et réduction PCA avec pyspark
Stockage des images sous Amazon S3.
Déploiement sur une instance EC2 et Amazon SageMaker
(comparaison)