Epipage 2 est une cohorte nationale de 8000 enfants pour l'étude du devenir des enfants prématurés. Elle a été lancée en 2011 au sein des 25 régions de la France.
Durant ces 2 années à l’INSERM, j’ai été le data manager pour le suivi des enfants de cette cohorte à l’âge de 5 ans ½.
Cette étape de suivi consistait à faire passer 2 visites médicales aux enfants (médecin + neuropsychologue, chacun devant remplir un questionnaire) et faire remplir 2 questionnaires par les parents.
Au final, ce sont plus de 12000 questionnaires papiers qui ont été récoltés.
Cette étape a nécessité la mise en place d’une logistique très lourde, impliquant notamment la gestion d’un volume très important de documents et le contrôle qualité d’un grand nombre de variables. Les contraintes règlementaires strictes, liées à la qualification en recherche interventionnelle de l’étude ont également nécessité la mise en place de contrôles réguliers et précis concernant notamment les consentements.
Acquisition des données & suivi de l’étude
Paramétrage de l’application web « Voozanoo » pour le remplissage des questionnaires en ligne
Support aux 25 coordinateurs régionaux dans l’utilisation de l’application
Création de tableaux de bords pour le suivi de l’avancement de l’étude au sein des régions (SAS + EXCEL)
Envois de listings d’anomalies aux coordinateurs régionaux
Contrôle de la réception des consentements des parents, des questionnaires papiers
Contrôle & nettoyage des données
Contrôle & correction de la saisie optique des données (SAS)
Contrôle sur les tests standardisés (MABC-II, NEPSY et WPPSI) présents dans les questionnaires remplis par les médecins et psychologues (SAS)
Contrôle sur les tests d’acuité visuelle (SAS)
Mise à disposition des données
Annotation des questionnaires avec le nom des variables
Création du dictionnaire des données
Création d’un process automatique d’extraction des données en fonction du besoin des statisticiens (SAS)
Autres tâches
Appariement des données de la cohorte avec les données de l’Assurance Maladie (SAS)
Mise en place d’une enquête de satisfaction auprès des médecins et psychologues ayant participé à l’étude (SurveyMonkey)
Statistiques descriptives sur l’enquête de satisfaction (SAS)
Mise en place d’une Newsletter pour les parents des enfants de la cohorte
Mediaprism est une entreprise de courtage spécialisée dans la location/vente d’adresses postales, emails et numéros de téléphones pour les campagnes marketing BtoB et BtoC.
J’ai tout d’abord été recruté en tant que développeur SQL puis évolué vers le poste de chargé de projet enrichissement de données où j’ai pu travailler sur des projets de grands groupes tels que Carrefour, Renault, Procter&Gamble etc…
Développement de scripts SQL
Traitements des données (SAS) :
o Nettoyage des fichiers clients
o Jointure des données clients avec la base Madiaprism
o Récupération des données demandées par le client
o Export vers les formats spécifiés par le client
Mise à jour des scores de prospection
Planification des projets d’enrichissements des données
Coordination des différentes équipes intervenantes sur les projets
Restitution des données + présentation des résultats aux clients
MISSION 2 : Analyste Développeur SAS / VBA / SQL (BPCE)
L'objectif de la mission était de maintenir en condition opérationnelle (MCO) une dizaine d’applications SAS & VBA et de procéder au développement des évolutions de celles-ci. D’écrire du code SQL pour mettre à jour les données stockées sous DB2/Oracle.
Participation aux stand-up daily
Chiffrage du temps en jour-homme nécessaire pour la réalisation des développements
Développement des évolutions selon les spécifications fonctionnelles (SAS 9.4 - VBA)
Packaging et livraison des codes
Présentation de l’utilisation des nouvelles fonctionnalités aux équipes métier
Support N3 à la résolution des anomalies de production
Analyse des logs (Unix)
Lancement des applications en production (Crontab)
Développement de requêtes SQL pour la création de tables, ajout/modifications de colonnes
Rédaction des spécifications techniques
MISSION 1 : Développeur Python (junior)/SAS (CARAC)
Sous la responsabilité d’un chef de projet et d’un développeur Python Senior, L'objectif de la mission était de procéder à la refonte des traitements ETL et des calculs actuariels sous Python dans le cadre de la migration des codes initialement développés sous SAS.
Analyse de l’existant sous SAS, et des nouveaux besoins de l’équipe Actuariat
Développement des nouveaux programmes en Python
Validation des résultats de la migration
Support et accompagnement sur Python & SAS de l'équipe Actuariat
En tant que chargé d’étude, la mission consiste au paramétrage de la saisie optique des questionnaires papiers (44 pages) concernant la vie après cancer (AfterCancer) des femmes issues de la cohorte E3N-E4N (~8000 femmes), du gel de la base de données et à l’analyse statistique de celle-ci.
Paramétrage de la saisie optique des questionnaires papier
Afin que la lecture optique des questionnaires soit possible dans la suite de logiciels OpenText, il fallait dans un premier temps créer les variables (saisir les noms et libellés d’environ 6500 variables). Dans un deuxième temps, afin que le logiciel sache où lire l’information pour chacune des variables, il fallait positionner et redimensionner les zones de lectures sur un exemplaire du questionnaire.
Plutôt que de faire du « clic bouton » sur le logiciel, j’ai utilisé le langage Python et ses bibliothèques afin d’automatiser autant que possible les tâches précitées. Cela m’a permis de finir en moins de 2 mois le paramétrage qui prend généralement entre 4 et 6 mois.
Automatisation de la création de variables dans OpenText (librairie Openpyxl + scripts shell)
Automatisation du positionnement des zone de saisies optiques (librairie Pyautogui)
Automatisation de la création du code SAS d’import des données récupérées d’OpenText (librairie Jinja2)
Règles de gestion et sélection des données (macro SAS)
Nettoyage et ajustement des données (SAS)
Rédaction d’une documentation sur le travail effectué
Actissia – France-Loisirs est une entreprise spécialisée dans l’abonnement de livres avec plus de 2 millions d’abonnés et plus de 200 boutiques à travers la France.
J’ai eu principalement 3 missions : la création d’une application Excel en VBA pour l’équipe marketing afin qu’elle puisse facilement fournir ses critères de sélection des clients cibles ; requêter et extraire les données à partir de ces critères et enfin la mise en place d’un score de prospection pour mieux cibler les clients pour les campagnes marketing de produits santé/beauté/bien-être.
Création d’une application Excel (VBA)
Étude de faisabilité
Rédaction du cahier des charges
Mise en place d’un échéancier de suivi de projet
Création du formulaire
Paramétrage d’envoi d’email depuis le formulaire
Extraction des données (SQL)
Requête de la base de données selon les critères établis par l’équipe marketing
Export vers le format spécifique au routage
Dépôt des fichiers sur le serveur FTP
Création d’un score de prospection
Construction de la base d’étude (SAS)
o Identification de la population éligible
o Identification de la période d’analyse
o Identification des variables utiles
o Extraction des données
o Recodage de la variable cible
o Discrétisation des variables continues
Analyses uni/bi variées (SAS)
o Création de tableaux de contingence
o Tests khi-deux entre les variables explicatives et la variable cible
Calcul du score (SAS)
o Division de la base en base d’apprentissage et de validation
o Application de la régression logistique
o Comparaison des modèles avec le critère d’Akaike et la courbe lift
L’objectif durant ce stage était dans un premier temps de créer une application sous SAS Entreprise Guide (SEG) afin de permettre d’homogénéiser 2 fichiers de code géographique de l’INSEE puis dans un second temps de calculer la puissance statistique du test de Potthoff-Whittinghill.
Création d’une application pour homogénéiser plusieurs fichiers de codes géographiques (SEG)
Rédaction d’un manuel d’utilisation de l’application
Calcul de la puissance du test de Potthoff-Whittinghill
o Simulation de données (R)
o Application du test Binomial Négatif (R)
o Visualisation graphique de la puissance selon différents seuils (R)
AUTRE
Projet de formation Analyste Big Data
Dans le cadre de la formation d’analyste big data, nous devions, par groupe de 4, réaliser un projet complet mettant en pratique le maximum des connaissances acquises durant celle-ci, de la gestion de projet à la création d’un modèle de machine learning.
Le sujet que nous avions choisi était « Classification des paroles de rap en adapté/non adapté à un jeune public »
Choix du sujet et cadrage du projet
Séance de brainstorming (Klaxoon)
Rédaction du diagramme de Gantt
Listing et répartition des tâches (Trello)
Création & nettoyage de la base de données
Scraping du site « Paroles.net » (librairie BeautifulSoup)
Labélisation des paroles
Stockage des données brutes dans le datalake (Microsoft Azure)
Création du datawarehouse (Cluster Cassandra)
Ingestion des données du datalake vers datawarehouse (Talend)
Retrait des stop words
Création du bag of words
Split des données en base d’apprenti...