Expérience professionnelle
IMERYS Lead Data Scientist, Dec. 2023 - Sept. 2024
• Architecture LLM et RAG avanc´ee: Conception et impl´ementation d’architectures sophistiqu´ees pour les mod`eles de
langage `a grande ´echelle (LLM) et les syst`emes de g´en´eration augment´ee par r´ecup´eration (RAG), en utilisant AWS
Bedrock comme plateforme centrale. Optimisation des performances et de l’efficacit´e des mod`eles pour des applications
d’IA g´en´erative `a grande ´echelle.
• Int´egration multimodale des donn´ees: D´eveloppement de pipelines d’ingestion et de pr´etraitement pour diverses sources de
donn´ees (texte, image, audio) afin d’enrichir les capacit´es des LLM. Utilisation d’Amazon Kinesis pour le traitement en
temps r´eel et d’AWS Glue pour l’ETL `a grande ´echelle.
• Ingestion de donn´ees scalable et ´elastique : Mise en place de syst`emes d’ingestion de donn´ees robustes et tol´erants aux
pannes, utilisant des technologies telles qu’Apache Kafka, Amazon Kinesis et Apache NiFi pour le traitement des flux de
donn´ees en temps r´eel et par lots.
• Orchestration des services IA AWS : Maˆıtrise approfondie de l’´ecosyst`eme AWS AI/ML, incluant SageMaker pour
l’entraˆınement et le d´eploiement de mod`eles, Comprehend pour le NLP, et Rekognition pour la vision par ordinateur.
Int´egration harmonieuse de ces services pour cr´eer des solutions IA compl`etes et puissantes.
• Optimisation des requˆetes et indexation s´emantique: Impl´ementation de techniques avanc´ees d’indexation et de recherche
s´emantique pour am´eliorer la pr´ecision et la pertinence des syst`emes RAG. Utilisation d’Amazon OpenSearch et d’algorithmes
personnalis´es pour une r´ecup´eration efficace des connaissances.
• Fine-tuning et adaptation de domaine des LLM: Ajustement fin des LLM pour des domaines sp´ecifiques, en utilisant
des techniques comme le PEFT (Parameter-Efficient Fine-Tuning) et l’apprentissage par transfert. Optimisation des
performances des mod`eles tout en minimisant les coˆuts de calcul.
• Evaluation et gouvernance des mod`eles : ´ Mise en place de frameworks robustes pour l’´evaluation continue des performances
des LLM et des syst`emes RAG. Impl´ementation de m´ecanismes de gouvernance pour assurer l’´equit´e, la transparence et
la responsabilit´e des mod`eles d’IA.
• Technologies utilis´ees : AWS Bedrock, Amazon SageMaker, Hugging Face Transformers, Amazon Comprehend, Amazon
Rekognition, Amazon Textract, Amazon Kendra,Amazon S3, Amazon Redshift, AWS Glue, Amazon Athena,Amazon
Kinesis, Apache Kafka,Amazon OpenSearch Service, Elasticsearch,AWS CodePipeline, GitHub Actions, MLflow
IMERYS DataOps Engineer, Sept. 2022 - Dec 2023
• Un projet complexe de migration et fusion de 80 syst`emes ERP vers AWS RedShift, r´eduisant les coˆuts de maintenance et
am´eliorant la coh´erence des donn´ees.
• D´eveloppement d’une pipeline d’ingestion des donn´ees flexible et scalable pour faciliter l’ajout de nouvelles sources de
donn´ees et am´eliorer la qualit´e des donn´ees (Python, AWS Glue, Apache Airflow).
• Mise en place de la mod´elisation et normalisation des donn´ees pour faciliter les analyses et optimiser la performance des
requˆetes (SQL, PostgreSQL, Cassandra).
• Automatisation du processus d’extraction des donn´ees d’AWS vers les ´equipes m´etier pour r´eduire les d´elais de traitement
des demandes (Java, Python, AWS Lambda).
• Mise en place de m´ecanismes de contrˆole de la qualit´e des donn´ees pour r´eduire les erreurs et am´eliorer la prise de d´ecision
(Python, scikit-learn, R, PyTorch).
• D´eploiement d’un Enterprise Service Bus (ESB) via Infrastructure as Code (IaC) avec AWS Cloud Development Kit
(CDK), int´egrant des processus d’int´egration continue et de d´eploiement continu (CI/CD) avec GitLab CI/CD et Jenkins
pour automatiser le d´eploiement et la gestion des services interm´ediaires, am´eliorant ainsi l’efficacit´e du d´eploiement et la
coh´erence des environnements.
ANTSROUTE Fullstack IA Software Engineer, Oct. 2021 - Sep. 2022
• D´eveloppement d’une application web pour l’optimisation des livraisons en utilisant le stack MERN (MongoDB, Express.js,
React.js, Node.js), Python et Java
• Conception et mise en œuvre d’algorithmes d’intelligence artificielle pour optimiser les calculs de livraison et am´eliorer
l’efficacit´e logistique
• Collaboration avec les ´equipes de d´eveloppement front-end et back-end pour assurer l’int´egration fluide des fonctionnalit´es
et la qualit´e du code
• Mise en place de tests unitaires et d’int´egration pour garantir la fiabilit´e et la performance de l’application
1
• Utilisation d’outils de versionnement et de gestion de projet (Git, JIRA) pour faciliter la collaboration et assurer un suivi
efficace des tˆaches
CS GROUP Machine learning engineer, Nov. 2019 – Oct. 2021
ESA
• Conception et mise en œuvre de solutions pour la collecte, le traitement et le stockage de donn´ees massives dans un
environnement Big Data (Java, Spark, Kubernetes, HDFS, Hadoop, Linux)
• Gestion des flux de donn´ees de grande envergure (plusieurs t´eraoctets par jour) et r´esolution des probl`emes de scalabilit´e
pour assurer un traitement rapide et fiable des donn´ees (Apache Kafka, Python, Docker)
• Participation `a la supervision du r´eseau et `a l’analyse des performances, ainsi qu’`a la m´etrologie applicative pour identifier
les am´eliorations potentielles du syst`eme (Elasticsearch, Jupyter, R)
• Contribution `a la cr´eation d’un mod`ele bas´e sur les m´ecanismes d’attentions et LSTM pour contextualiser l’attaque.
L’objectif ´etant de minimiser les faux positifs pour minimiser le workload du SOC.
• Am´elioration des syst`emes d’alarme et de supervision du r´eseau et r´ealisation d’analyses `a froid pour soutenir les d´ecisions
strat´egiques et optimiser les performances du r´eseau (R, TensorFlow, PyTorch)
CNES
• Impl´ementation et maintenance des flux de collecte, structuration de donn´ees, stockage et d´eclenchement de traitements
analytiques dans un environnement Big Data pour soutenir les activit´es de recherche et d´eveloppement (AWS, HDFS,
Hadoop, Kafka, Elasticsearch, AWS Redshift, Python, Linux)
• Gestion de donn´ees tr`es volumineuses (dizaine de t´eraoctets par jour) et maˆıtrise des contraintes de scalabilit´e pour assurer
un traitement rapide et fiable des donn´ees (Java, Scala, Docker, Kubernetes)
• Supervision et analyse des performances du r´eseau et m´etrologie applicative pour garantir la stabilit´e et la fiabilit´e du
syst`eme (Elasticsearch, ,Ansible,Jenkins)
• Travail en environnement agile avec une ´equipe multidisciplinaire pour r´epondre aux besoins du projet et am´eliorer la
qualit´e du produit final (Git, Tableau)
• Contribution `a l’am´elioration de l’alarming/supervision du r´eseau et aux analyses `a froid pour optimiser les performances
du r´eseau et soutenir les d´ecisions strat´egiques (Ansible,Jenkins)
RATP
• Cr´eation et gestion d’un pipeline de donn´ees pour faciliter la collecte, le traitement et l’analyse des donn´ees de transport
en commun, am´eliorant ainsi la planification et l’efficacit´e du r´eseau (Python, Java, SQL, MongoDB, Redis)
• Collaboration avec les ´equipes techniques de la RATP et de la ville de Paris pour int´egrer les donn´ees et r´epondre aux
besoins des utilisateurs (Java, R)
• Evaluation et s´election des technologies et outils pour cr´eer des solutions performantes et ´evolutives (Docker, Hadoop, ´
HDFS, Cassandra)
• Mise en place de m´ecanismes de surveillance et d’alerte pour assurer la fiabilit´e et la s´ecurit´e des donn´ees (Elasticsearch,
Python, Docker)
• Int´egration des donn´ees de positionnement en temps r´eel pour permettre un suivi pr´ecis et en temps r´eel des v´ehicules de
transport en commun (Java, Python, SQL)