J'ai travaillé sur un projet passionnant visant à créer une plateforme de données innovante
appelée Telemetry. Mon rôle principal était de concevoir et de développer les processus
d'extraction et d'intégration de données entre les systèmes Talend Cloud et l'équipe Data
Science/Analytique, afin de fournir aux clients internes des données de qualité et de
confiance.
Avec une équipe de 5 personnes (2 SRE, 1 Data Engineer, 1 Architecte et 1 Manager) j'ai
travaillé sur la mise en place de la real-time data plateforme en avec des technologies de
pointe telles que Kafka, Debezium CDC, Kubernetes, Spark (SQL, Streaming) et AWS (EKS,
MSK, EMR, S3, Athena, Glue), ainsi que des outils tels que Talend Cloud, MongoDB, Postgres
et Snowflake.
La platforme expose les data en tant qu'un Lakehouse Delta (Databricks) avec 3 zones
Bronze, Silver et Gold.
J'ai également utilisé des langages de programmation tels que Python et Java pour créer les
pipelines de data et implémenter des modèles Machine Learning pour comprendre les
données d'utilisation et prédire le désabonnement des clients.
En utilisant des outils tels que JIRA, Git, Github, Github CI, Flux et Helm, j'ai pu travailler
efficacement avec mon équipe pour assurer la qualité et la rapidité du développement et
déploiement.
En outre, j'ai utilisé des outils de surveillance tels que Grafana et Prometheus pour
m'assurer que la plateforme de données fonctionne en douceur.
Grâce à mon travail sur Telemetry, j'ai aidé Talend à obtenir des informations plus précises
et plus approfondies sur les utilisateurs de ses produits.
Développement de modèles de Deep Learning de Computer vision pour construire un
"smart" security camera. Parmi ces modèles: détection de panique dans un mouvement de
foule, détection de dépôt d'ordures sauvages dans des milieux ruraux et urbains.
Le challenge est dans:
la collecte et la préparation de données
la contrainte de small objects détection (vue caméra de sécurité)
la vitesse de prédiction (real-time)
Architectures étudiées: Yolov3, Yolov4, Yolov5, RetinaNet and Faster RCNN.
J'ai implémente les modèles en PyTorch 1.9, TensorFlow 2, OpenCV, Mediapipe, skimage,
Python3.8.
Les algorithmes seront par la suite optimisés (pas d’utilisation de GPU à l’inférence),
exposés et intégrés à la plateforme du client.
PROJET 1:
Afin de garder un suivi complet de l'évolution des données MongoDB et avec une équipe
de 2 personnes, nous avons mis en place une solution ETL temps-réel sur Google Cloud
Platform.
PROJET 2:
Afin de gérer l'habiliation de projets BigQuery, j'ai développé deux cloud functions qui
automatiquement créent des restrictions et gérent la visbilité de tables.
RÉALISATIONS - P1
J'ai développé des DAGs Airflow avec Cloud Composer qui permettent de:
Scanner et être notifié de tous les évenements MongoDB (Oplogs)
Pre-processer les évenements et les maper en data et metadata BigQuery (success data
et failure data)
Stocker les data générées dans BigQuery
Monitorer le process d'importation
Gérer les failures et reprendre via un timestamp stocké dans Cloud SQL.
Envoyer des alerts via Google Cloud Logging-based monitoring.
RÉALISATIONS - P2:
Synchronisation de métadata saisies par le métier dans un fichier CSV et des tables et
dataset BigQuery via une cloud function déclenchée par un bucket GS.
Synchronisation de vues ABLE target en fonction de metadata saisies dans des tables
source via une cloud function déclenchée par un Cloud Sink envoyant des messages sur
un topic pub/sub.
La CI/CD est gérée par un custom runner kubernetes sur GitLab pour les deux projets
Keywords: Python, Google Cloud Composer, Google Cloud Storage, Google Coud Function,
Google Cloud Sink, Google Pub/sub, Airflow, MongoDB, BigQuery, Kubernetes, Google
Cloud Scheduler
PROJET
Afin de tracer l’utilisation des médicaments, CEVA souhaitait mettre en place une solution
de reconnaissance de médicaments basée sur la vision par ordinateur et le Machine
Learning.
RÉALISATIONS
J’ai développé une API en Python 3 qui est capable d’analyser et comprendre une image
afin de reconnaître le produit pris en photo. Les grandes étapes du projet sont :
Etude et création du besoin
Récupération de l’image depuis un bucket google Storage
Localization des objets à l’intérieur de l’image via Google VISION API
Recadrage de l’image pour garder que l’objet centrale identifié
Preprocessing de l’image (changement résolution, passage en grayscale, augmentation
contraste, rotation)
Extraction des textes dans l’image de l’objet via VISION API (OCR)
Identification du texte le plus grand dans l’image comme nom potentiel de produit
Analyse de texte extrait et création de combinaison à comparer avec “fuzziness “ avec le
nom du produit
Calcul d’un score de matching de texte, score de reconnaissance de caractères, score
d’identification de l’objet
Tri des éléments sur le score avec un ordre décroissant
Retour du premier élément (ayant le score le plus élevé)
Mots-clés: Python, Machine Learning, Computer vision, Google Vision API, Google Storage,
Pillow, fuzzysearch, Flask, Docker, Google Cloud Run, unittest, Pandas, Numpy, Seaborn
Projet transformée en une startup ********
PROJET
Dans le cadre d'une grande démarche innovante à destination des collectivités
territoriales et avec deux partenaires, nous avons gagné un challenge organisé par la
banque des Territoires. Nous travaillons sur un projet Data Science dont le but est
d'inventer les interfaces d'acquisition, de traitement et de restitution des plan de réseau
de l'eau des collectivités
RÉALISATIONS
Je travaille sur un modèle de Deep Learning de géoréferencing automatique de plans avec
fond cadastre contenant un réseau de l'eau.
J'apporte mon expertise en computer vision et en recherche sémantique pour
automatiquement calquer un plan AutoCad en format PNG/PDF sur la cartographie.
J’interviens sur tout le workflow du projet.
Mots-clés: Deep Learning, CNN, AutoEncoder, FAISS, OpenCV, Features extraction,
Semantic Search, GeoJSON, GIS, spatial data, Edge detection, Git, REST API, Flas, Docker, GCP
PROJET
Dans le cadre de son activité de support aux utilisateurs pour son client Carrefour, SopraSteria souhaitait mettre en place une solution intelligente d'aide à la résolution de tickets
pour ses opérateurs de support. Mon intervention consistait à développer un module de
matching intelligent entre les demandes et les procédures de résolution basé sur des
approches NLP non-supervisées.
RÉALISATIONS
● Etude du problème business
● Avant-vente et proposition de solutions
● Développement d’un PoC pour un module NLP de matching entre tickets et solutions à
proposer pour le système de support client Care (Carrefour)
● Argumentation et démonstration du PoC au client
● Développement du module de NLP:
Mise en place de l’architecture et d’un environnement d'exécution avec Anaconda 3
Récupération et croisement de données à partir d’une BDD postgresql et de fichiers CSV
Analyse, exploration et visualisation de données Care via pandas, numpy, matplotlib
Mise en place de l’algorithme de matching grâce à une structure de données MARISA
TRIE et un modèle NLP basé sur un modèle Deep Learning pré-entraîné via la lib spaCy
Développement d'un algorithme de ranking des solutions suggérées
Développement de tests automatisés et un benchmark de metrics (trade-off entre
précision et rappel)
Développement d’une API REST pour déployer le modèle de matching (flask, logging,
waitress, GCP StackDriver)
Dockerisation de l’API
Le concept de ********-learning-avec-tensorflow/ est d'aider les
élèves à faire leurs premiers pas dans les réseaux de neurones profonds - Deep Learning.
Depuis la création de l'atelier, plus que 230 élèves ont été formés. Pendant cette journée,
j'aide mes élèves à:
● Découvrir ce qu’est le Deep Learning, sa puissance et ses cas d'usage
● Comprendre comment marche le Deep Learning sous le capot
● Coder un réseau de neurones profond avec TensorFlow 2
● Travailler sur un vrai projet de Deep Learning avec un cas d’usage concret (workshop)
PROJET
Le Groupe Vidal est une entreprise européenne leader dans le domaine de l'informatique
et des systèmes d'information liés à la santé.
Le projet consistait à la création de l’application web réactive Vidal Sentinel, qui propose
aux pharmaciens hospitaliers d'évaluer en temps réel les risques iatrogéniques liés aux
prescriptions intrahospitalières à parti...
BdxBot est disponible 24/24h sur Facebook Messenger, BdxBot,
********/
est un assistant personnel utilisant le NLP et qui facilite le séjour des habitants et visiteurs
de Bordeaux.
BdxBot est aujourd'hui utilisé par plus que 10230 utilisateurs hebdomadairement et
enregistre une croissance organique de 3 utilisateurs par jour. Il est noté est noté 4.9/5
********/