Notre base de 155515 CV vous permet de trouver rapidement un Data scientist Toulouse freelance. Recevez gratuitement et sous 24h maximum les CV des meileurs intervenants disponibles.
La poste : Analyse Automatique des enquêtes de satisfactions :
Extraction des réponses sur les enquêtes à partir de Survey Monkey et
applications des règles métiers sur les réponses aux enquêtes.
Développement d’un pipeline de traitement pour la vectorisation des
données Textuelles :
• Nettoyage + Lemmatisation
Développement de différentes approches NLP pour la classification des
réponses au enquêtes :
• TFIDF + Régression logistique
• Word Embedding
• Bert
Développement d’un algorithme NLP pour l’analyse de sentiment sur les
réponses.
Mise en place d’un algorithme de topicmodeling (LDA).
Automatisation de l’ingestion, l’inférence et l’entrainement des différents
algorithme NLP sur GCP (Cloud function + Bigquery).
Dashbording et recherche textuelle interactive en utilisant Google Data
Studio.
❖ Analyse des données démographiques et déploiements d’algorithme ML
Extraction Traitements de données avec Power BI.
Déploiement d’algorithme de machine learning en utilisant FastAPI et
Docker.
Principaux Travaux :
Docker, FastAPI, PowerBI.
Colissimo : Classification des secteurs d’activités des clients :
Scraping des pages d’accueil des sites Web des clients.
troubleshooting d'erreurs de logs
Mise en place d’une Pipeline d’algorithmes de nettoyage et traitement pour la
vectorisation des données Textuelles :
• Tfidf – Ngram – Word2vec
Mise en place d’algorithmes de machine Learning pour la classification du secteur
d’activité de chaque client :
• Régression Logistique
• Xgboost
• LSTM
❖ Green AI :
Benchmarking des outils de calcul de l’empreinte CO2, lors de l’entrainement
des algorithmes de machine Learning.
Mise en place d’une étude statistique comparative des empreintes CO2 de
différents algorithmes de classifications d’images.
Mise en place d’un pipeline pour la construction d’une Base d’apprentissage pour
l’entrainement des modèles de prédictions de L’empreinte CO2.
Mise en place d’un modèle de machine Learning pour la prédiction de
L’empreinte CO2.
Principaux Travaux :
❖ PSA Banque : Churn des Clients Particuliers PSA Banque France
Etude de la qualité des données des remboursements anticipés (RPA).
Traitement et analyse statistique des données RPA.
Mise en place d’une Pipeline d’algorithme de machine Learning pour
l’anticipation des RPA.
Mise en place d’un d’algorithme de machine Learning pour la prédiction des
moments des RPA.
Explicabilité détaillées des résultats des algorithmes de machine Learning en
utilisant SHAP.
❖ Développement d’un outil de data mining pour répondre, à partir de la
littérature existante, aux questions scientifiques prioritaires sur le Covid19 :
Traitement des données Textuelles issu du corpus CORD 19, mise en place par
l’OMS et ces partenaires.
Mise en place d’un algorithme de machine Learning d’extraction des Keywords
et key sentences à partir des questions posées.
Mise en place d’un algorithme de NLP pour l’extraction des réponses les plus
pertinentes, à partir des documents du CORD19, aux questions posées.
Principaux Travaux :
❖ Détection de logo sur des retransmissions de match de rugby
Traitement, extraction et labélisation des données images à partir des
vidéos.
Traitement des données sémantiques et visuelles
Mise en place de plusieurs algorithmes de Deep Learning pour la détection
d’objets :
• SDD
• Retinanet
• Mask R-CNN
Développement d’un Pipeline de détection de logos sur les vidéos de match
en utilisant les algorithmes entrainés précédemment.
❖ Développement du cognitive data center.
Traitement des données temporelles des logs serveurs.
Mise en place d’algorithme de machine Learning pour la prédiction des
pannes sur les serveurs :
✓ Linearregression
✓ Random Forest
Développement de tests unitaires.
Intégration des algorithmes dans le Pipeline de développement.
troubleshooting d'erreurs de logs.
❖ Indexation Vidéo en utilisant les méthodes de Deep Learning (Challenge
Life-Log)
Traitement des données sémantique et visuelle.
Mise en place d’algorithme de Deep Learning pour la détection
d’objet.
Publication d’un working note des résultats obtenus et méthodes mise en
place.
Principaux Travaux :
❖ Cnes : Prédictions des téléchargements sur la base de données du Cnes :
Etude de la qualité des données des remboursements anticipés (RPA).
Traitement et analyse statistique des données RPA.
Mise en place d’une Pipeline d’algorithme de machine Learning pour
l’anticipation des RPA.
Mise en place d’un d’algorithme de machine Learning pour la prédiction des
moments des RPA.
Explicabilité détaillées des résultats des algorithmes de machine Learning en
utilisant SHAP.
❖ Prédiction des Volumes de ventes SKF
Analyse approfondie de l’historique de ventes SKF.
Preprocessing des données pour qu’elles soient injectable dans le logiciel PO
(Predictive Object de TellmePlus).
Mise en place d’une serie d’algorithme de prédiction de volumes de ventes au
différent niveau de grouping de client :
✔ Linear regression
✔ Random Forest
✔ Gradient Boosting
Principaux Travaux :
❖ SUEZ: Détection des compteurs d’eau bloqués (Sous comptage) :
Mise en place d’un Pipline d’extraction et de Nettoyage des données à partir d’un
cluster Hadoop.
Preprocessing et analyse des données de consommations de clients avec
Pyspark.
Mise en place d’un Dashboard, de visualisation, pour les indicateurs métiers de
consommations d’eau des clients.
Analyse et détection des cas de fraudes sur la consommation.
Mise en place d’un algorithme de classification supervisée pour la détection des
compteurs bloqués.
Explicabilité des résultats de l’algorithme de machine learning.
❖ Covea : Anticipation des pannes sur le site internet du GMF:
Corrélation des données client avec les données Google analytics.
Détection d’exfiltrations du site internet à l’aide de tests statistiques.
Mise en place d’une série d’algorithmes de classification supervisée pour la
détection des pannes.
Réalisation d’un Dashboard Tableau en temps réel pour la visualisation des
prédictions des pannes.
Principaux Travaux :
❖ Airbus : Développement d’un outil d’analyse prédictive d’impacts dus à des
modifications sur des éléments de configuration :
Analyse des données de l’historique des modifications.
Sélection des variables les plus discriminantes.
Mise en place d’un algorithme d’apprentissage (KNN) pour :
• La prédiction de l’impact du changement d’un composant sur un autre.
• La prédiction de l’impact du changement d’un cluster de composants sur
un autre cluster.
Détection des similarités des configurations relative aux changements des
composants.
❖ Eurosatory : Détection des profils à risques sur des données provenant des
conversations téléphoniques :
Nettoyage et traitement statistique des données.
Sélection des variables les plus discriminantes.
Détection des profits à risques à l’aide d’un algorithme de classification
supervisée (arbre de décision et Randomforest).
Text mining sur les textes des conversations des individus.
Dashbording des données avec Spotfire et Kibana.
Principaux Travaux :
Environnement Python, R, Kibana.