Le Data Scientist freelance est un responsable de la gestion et de l’analyse Big Data. Ce spécialiste des programmes informatiques, des statistiques et des chiffres traite les données d'une entreprise afin d'en extraire les informations pouvant l'aider dans sa prise de décisions. Il s’agit donc d’un poste à haute responsabilité, nécessitant une éducation de haut niveau et surtout des prédispositions naturelles. Découvrez dans cet article les compétences indispensables pour travailler en tant que freelance Data Scientist.
En freelance, le Data Scientist doit maîtriser les fondamentaux de Data science. Plusieurs débutants font l’erreur d’appliquer des méthodes d'apprentissage automatique sans comprendre les bases de ces méthodes.
C'est une erreur. En tant que freelance Data Scientist, vous devez pouvoir différencier le deep learning et le machine learning. Vous devez également connaître les outils les plus utilisés. Finalement, le freelance Data Scientist sait différencier les problèmes de classification et de régression, et l’apprentissage non supervisé ou supervisé.
Le travail de Data Scientist en freelance requière la maîtrise un langage de programmation au minimum. Python est le langage informatique le plus couramment employé, il peut toutefois être remplacé par Java, R, Julia, C++ ou Pearl.
Python est généralement privilégié parce que c'est un langage généraliste avec plusieurs bibliothèques dédiées à la science des données. R est le langage dédié à la visualisation de données et à l’analyse statistique. Julia regroupe le meilleur des deux mondes et semble être plus rapide.
L'apprentissage automatique est une compétence différenciant véritablement le Data analyst du Data Scientist. Les informaticiens l'utilisent pour créer les modèles prédictifs, qui se basent sur des données du passé afin de prédire les futures tendances.
Les divers algorithmes de machine learning permettent de résoudre plusieurs problèmes. En qualité de Data Scientist freelance, vous devez connaître le code de chacun de ces algorithmes, mais notamment la façon dont fonctionnent ces algorithmes.
Ainsi, vous pouvez opter pour le modèle correct en fonction des problèmes à aborder. Vous pouvez également configurer chaque hyper-paramètre et réduire les erreurs du modèle.
Le Data Scientist freelance doit être à l’aise en manipulant et en analysant les données. Il doit pouvoir manipuler les données, les nettoyer et les mettre dans un format approprié à l’analyse. Le traitement de données est une étape importante pour simplifier une analyse de données et améliorer les résultats.
Quant à l’analyse de données, elle a pour objectif d’apprendre à base de données. À cet effet, le Data Scientist python utilise Pandas, SQL ou Excel. Il s'agit du travail d’un analyst Data Scientist. En utilisant l'apprentissage automatique, ce travail de Data Scientist freelance va plus loin.
Si un Data analyst indépendant a aussi pour mission l'exploitation et l’interprétation des données, un Data Scientist indépendant, a lui une vision plus globale. Le travail du Data Scientist freelance a un impact direct sur l’amélioration d'une activité globale d'une société.
Les missions du Data Scientist :
Mission Développement d’un modèle de recommandations pour les clients La Vie Saine
Prétraitement des données :
o Concaténation des différentes tables issues de la base marketing
o Identification des clients actifs
o Cleaning des données (homogénéisation des champs texte, correction
orthographique, suppression des rayons non pertinents…)
Normalisation des données pour atténuer les habitudes d’achats de
personnes au profil totalement différents (famille nombreuse/ célibataire) et
atténuer les fréquences d’achats de produits de grande consommation que
peuvent être le pain par rapport à la lessive.
Calcul de la matrice d’appétence
A/B testing : Exploitation de la matrice d’appétence et des données de
campagne promotionnelle pour rendre compte des performances de
l’algorithme
Mission Développement d’un modèle de détection d’oulier
Réalisation d’un algorithme de détection d’outliers de positions GPS du
véhicule surveillé dans le but d’améliorer la précision des features front-office
du produit Core For Tech
Développement de modèles prédictifs de détection de somnolence
Dans le cadre de la Software République, définition d’une solution de
planification temps de conduite/ temps de pause visant à anticiper les risques
de somnolence des conducteurs de véhicule
Génération de features et de modèles de prédictions pour anticiper la
somnolence au volant à partir de données de sources différentes :
o Les données comportementales du véhicule (données GPS et issues du
bus CAN)
o Les données physiologiques du conducteur (battements cardiaque)
Données utilisées : historiques issues de différentes campagnes de tests
mixant conduites réelles et simulateur. Hétérogénéité des données
enregistrées (comportementales, physiologique). Qualitatives (ressenti
utilisateur KSS/ OSS) et quantitative (données issues de capteurs).
Principaux algorithmes utilisés : Random Forest, KNN, Logistic Regression
Technologies Scikit-learn, KNN, Random Forest, Logistic Regression
Infrastructure utilisée : plateforme AWS (S3, Lambda, SageMaker)
Mission Développement de modèles prédictifs de détection de fraudes
Réalisation de modèles de détections de fraudes dû à la non déclaration ou la
mauvaise classification de transport de matières dangereuses
Analyse des données, implémentation des pipelines de transformation des
données, optimisation des modèles de détection de fraudes, évaluation de
leur qualité
Données utilisées : historique des demandes de prise en charge/transport de
containeurs mixant données structurées et descriptions textuelles du contenu
du containeur par les déclarants
Principaux algorithmes utilisés : Random Forest, Gradient Boosting, Isolation
Forests, NLP
Mission Développement de modèles prédictifs de maintenance prédictive
Réalisation de modèles de maintenance prédictive destinés à anticiper les
pannes sur les avions et à optimiser les opérations de maintenance
Analyse des données, implémentation des pipelines de transformation des
données, optimisation des modèles prédictifs, évaluation de leur qualité
Données utilisées : séries temporelles des capteurs embarqués IoT, his...
Machine Learning : approches supervisées, (classifications,
régressions, random forests, boosting, stacking…), nonsupervisées (PCA, K-means, DBScan, Isolation Forests…),
séries temporelles (ARIMA, VAR…)
Deep Learning : NN, CNN, RNN et LSTM
CMA-CGM : Senior Data Scientist (6 mois)
Airbus : Data Scientist Expérimenté (2 ans)
Airbus : Data Scientist (2 ans)