Notre base de 153038 CV vous permet de trouver rapidement un Data scientist Paris freelance. Recevez gratuitement et sous 24h maximum les CV des meileurs intervenants disponibles.
Projet : Automatisation de diagnostic
Sebia est le premier fournisseur mondial d'équipements et de réactifs pour l'électrophorèse clinique des protéines, avec plus de 1000 employés.
Client : Laboratoires d'analyses médicales
Contexte / Objectif : La mission consistait à accompagner la R&D de Sebia dans la mise en place d'algorithmes d'intelligence artificielle pour l'automatisation, l'aide à l'interprétation et la découverte de nouveaux marqueurs de maladies.
Environnement travail / fonctionnel : Equipe de 3 personnes, dont un autre data scientist, un chef de projet et moi-même.
Contraintes : une workstation équipée de GPU, collaboration avec des entreprises externes, un gitlab interne, quantité de données dépendant des équipes de labellisation.
Principales réalisations :
● Accélération et stabilisation de l'algorithme de traitement de signal (x100) et amélioration des métriques (accuracy est passé de 90 % à 94 %) pour le diagnostic du myélome multiple.On est passé d'un algorithme qui prenait plus de 10 secondes par courbe pour l'inférence à 0,1 seconde en utilisant les bonnes structures de données et l'optimisation du calcul parallèle. Débogage, transfert et accompagnement pour que le code soit mis en évaluation sous forme d'un RUO. Communication avec un sous-traitant qui gérait le déploiement de l'algorithme et débogage de plusieurs bugs liés à Linux et Python dans un environnement de production. Par exemple, gestion des mises à jour automatiques des librairies Python pour que le code soit stable au cours du temps.
● Data engineering et collaboration avec les experts pour la mise en place d'une base de données de référence. Utilisation de pgAdmin(SQL) et mise en place d'un data pipeline documenté pour transformer les données brutes produites par les machines Sebia et les labellisations des experts afin qu'elles puissent être traitées par les modèles machine learning et deep learning. Ce qui a permis l'intégration facile de nouvelles bases de données et que l'autre data scientist puisse faire tourner ses algorithmes avec les miens.
● Analyses statistiques (glm, ...) pour la détection de nouveaux marqueurs : Mise en place d'un code qui teste plusieurs configurations de modèles (régression logistique/SVM/random forest), d'hyperparamètres et de combinaisons de features pour détecter les marqueurs les plus pertinents.
● R&D sur les images de gels avec les derniers algorithmes de reconnaissance d'images. Mise en place d'algorithmes d'interprétabilité et de détection d'anomalie sur ces images. La performance était au-dessus de 98 %. Première fois qu'un algorithme de deep learning a été testé sur ce genre de données (pas d'articles scientifiques disponibles).
Projet : Standardisation API
Yzr est une start-up spécialisée dans la standardisation de libellés produits et de noms de clients. Elle propose une plateforme no code de normalisation basées sur des API et l’IA.
Client : Marketplace, grandes distributions
Contexte / Objectif : En forte croissance Yzr a besoin d’un support technique. J’ai rejoint Yzr dans un premier temps dans le but d’être l’interface entre l’équipe tech et les clients sur les sujets techniques pour que les ressources en interne soient à 100 % sur l’amélioration du produit. J’ai ensuite rejoint la R&D pour coacher les data scientists juniors et améliorer les algorithmes de NLP.
Projet : Standardisation API
Yzr est une start-up spécialisée dans la normalisation et la standardisation de données. Elle
propose une plateforme d’automation de l’interopérabilité des données provenant de sources
hétérogènes.
Client : Yzr
Contexte / Objectif : En forte croissance Yzr a besoin d’un soutien technique pour pouvoir
faire face à la demande. J’ai rejoins Yzr dans le but d’être l’interface entre l’équipe tech et les
clients permettant ainsi à celle-ci de se concentrer sur le produit. Mon objectif est de faire
monter en compétence l’équipe technique, gérer un portefeuille de client et d’intégrer de
nouvelles features à la Roadmap produit.
Projet : Konectom
Konectom est une application mobile de Biogen. Elle consiste en un medical device permettant de suivre
l’évolution de maladies cérébrales : SMA, MS, … L’application évite aux patients de faire certains tests chez
le médecin dans le cadre de leur suivi.
Client : Equipe scientifique
Contexte / Objectif : Le projet s’inscrit dans l’intégration d’un produit d’une start-up (Ad Scientiam) dans
les produits de Biogen permettant de combiner l’innovation avec la force de frappe de Biogen au niveau des
Clinical trials. L’équipe Data est chargée d’analyser les données d’utilisation de l’application. L’objectif est
la mise de place de features optimaux permettant le suivi de la progression de la maladie chez le patient.
Premier Data Scientist / Data Analyst recruté au sein de l’équipe Data.
Environnement travail / fonctionnel : Equipe de 10 personnes en Agile Scrum.
Contraintes : Le Coronavirus qui a mis un stop aux essais cliniques du produit. Aucune infrastructure
d’analyse de données au début de la mission.
Principales réalisations :
Suivi d’une entreprise tierce pour la mise en place du back-end de la plateforme de Data Science :
- Analyse des besoins utilisateurs (Data Scientists)
- Revue de l’architecture back-end proposée sur le cloud AWS (Amazon Web Services) avec
l’entreprise tierce - Cycle de vie des données : base de données firebase, document Db,
lambda functions, notebooks, intégration Git, outils d’analytics
- Définition des formats de données utilisées sur la plateforme de Data Science et
récupérées sur les devices
- Définition des variables utilisées à partir des réunions scientifiques
Mise en place d’une première librairie data science avec les fonctionnalités CI/CD sur le GitLab de
l’équipe Data Engineering :
- Création d’un algorithme état de l’art de step detection sur des séries temporelles de
données d’accélération et de rotation à partir d’un papier de recherche pour le U-turn
test et mise en place d’une démo (visualisation des résultats de l’algorithme en temps réel)
permettant de démontrer l’algorithme à l’équipe
- Lancement d’une étude de reliability avec R afin de visualiser la qualité des features et de
leur stabilité temporelle.
Projet : Healthcare bot
Au sein d’AXA REV (Research Engineering Vision) qui est le pôle
innovation de l’IT au niveau groupe d’AXA. Les équipes d’AXA REV
travaillent sur des projets à haut potentiel et placés très haut sur la value
chain. Elle collabore avec les meilleurs chercheurs du monde (Stanford,
Ecole Polytechnique Fédérale de Lausanne, …)
Client : N+2 de l’équipe AXA REV
Contexte / Objectif : Le projet consiste en la mise en place d’un Chatbot
médical. L’utilisateur peut recevoir des diagnostics et suggestions de
médecins en échangeant avec le Chatbot.
Environnement travail / fonctionnel : Equipe de 10 personnes
réparties à Lausanne, Paris et Barcelone et un Chef de Projet Agile.
Contraintes :
Contrainte de temps : Déploiement du bot en production mijanvier.
Contraintes légales, de sécurité, de robustesse, d’image de
marque, ...
Principales réalisations :
Aide à la définition et mise en place de l’architecture backend (fonctions Azure, serveur FHIR, transformation de données
grâce à Typescript, Spark…) du chatbot enregistrant les
interactions utilisateurs dans une base de données graph sur
Azure Cosmos DB regroupant les don...
Contraintes : arriver à un ARR de 100K avant la prochaine levée de fonds
Principales réalisations :
● Accélération des entrainements et du testing des algorithmes grâce aux GPU, dockerisation des algorithmes entrainés pour la mise en production, proposition d’utiliser un outil no code pour la labellisation manuelle.
● Mise en place de la première version de l’algorithme pour traiter le sujet de l’augmentation de données.
● Modification de l’algorithme pour qu’il prenne en compte les mots composés.
● Mise en place d’un framework de testing pour monitorer l’évolution des performances de l’algorithme en fonction des différentes améliorations apportées. Ce qui a notamment permi de mieux démontrer aux clients l’utilité de l’algorithme de labelling et ce qui a entrainé l’acquisition du premier client de la start-up sur la parti produit : Monoprix.
● Encadré un data scientist au début pour le labelling puis 2 data scientists.
● Mise en place de dashboarding automatisés avec Google Sheet API
● Mise en place d’un pipeline de données avec airflow pour déployer à l’échelle la validation des données chez les clients.
Environnement technique : python , Bert, Docker, AWS, Elastic Search, celery, fast-API
Contraintes : Le Coronavirus qui a mis un stop aux essais cliniques du produit.
Principales réalisations :
• PRISE EN MAIN DE PLUSIEURS CLIENTS : CLEAR CHANNEL, L’OREAL, AXA MAROC ET MECHANICUS
• EXECUTION D’ALGORITHMES TELS QUE LE VARIANT GROUPS ET CAMEMBERT POUR CES CLIENTS.
• INTEGRATION DE DONNEES DANS ELASTIC SEARCH
• CONSEILLE L’EQUIPE TECH SUR LES TECHNOLOGIES A UTILISER (PAR EXEMPLE KUBERNETES AVEC