CV/Mission de Consultant PySpark freelance

Je dépose une mission gratuitement
Je dépose mon CV
Vous êtes freelance ?
Sécurisez votre activité grâce au portage salarial !

Exemple de missions de Rabii,
Consultant PySpark habitant les Yvelines (78)

  • | Senior Data Engineer

    Louis Vuitton
    Jan 2023 - aujourd'hui

    • Qualification du développement et correction des bugs existants.
    • Assistance au développement pour finaliser les étapes restantes de la migration.
    • Audit et amélioration de la solution pour optimiser les performances et la stabilité.

    Technologies : Python, Scala, SQL, DBT, BigQuery, Cloud Run, Airflow, Jenkins, GitHub, Docker
  • Tech Lead Data GCP

    Orange
    Jan 2021 - aujourd'hui

    Ensure the design, development, and delivery of migration solution from Teradata to GCP.
    solving difficult and complex technical problems.
    Development f data pipelines.
    Creation of DAGs for tasks orchestration.
    translate ksh scripts to python.
    translate Teradata SQL to BigQuery SQL.
    Support of the Data Engineer teams on code reviews.
    Mentor Engineers to develop their technical skills.

    Technologies: BigQuery, Cloud composer, Airflow, Docker, Firestore, Data Flow, Cloud Run,etc… Python, ksh, SQL Agile, CI/CD, Git
  • Orange

    | Tech Lead Data GCP
    Jan 2021 - Jan 2023

    Etude des développements existants (Teradata) et Conception d'une stratégie de migration complète vers GCP, y compris le
    choix des composantes
    • Traduction de scripts KSH en Python, SQL Teradata en SQL BigQuery et la mise en place de scripts DAG pour
    l'ordonnancement.
    • Développement et déploiement de solutions via Docker et CI/CD, accompagné de tests rigoureux pour assurer la qualité et
    l'intégrité des données.
    • Contribution active à l'amélioration de l'architecture, en apportant des solutions innovantes pour optimiser les performances et
    résoudre les problèmes.
    • Automatisation des tâches répétitives, y compris le recensement des paramètres, les tests unitaires, l'installation, la
    qualification, et la documentation.
    • Prise en charge de l'accompagnement technique des développeurs et data Engineers, facilitant leur progression, validant les
    solutions et développements, et supervisant les déploiements en production..

    Technologies : BigQuery, Airflow, Docker, Firestore, Data Flow, AI vertex, Dataproc, Python, ksh, SQL, CI/CD, Git
  • Consultant Data Analytics

    MACIF
    Jan 2021 - Jan 2021

    Technologies :
    Pyspark, Python
    Spark Streaming, Nifi, MongoDB, ML.
    Study and processing of complex data.
    Development of data flows in pyspark.
    Migration from NIFI to Spark streaming
    Proposal for a new use case in machine learning.
    Optimization of existing predictive models
    Support for data profiles.

  • INETUM (GFI) – Paris
    Jan 2021 - Jan

  • Data Scientist Consultant TechnipFMC

    Bluescale - PARIS
    Jan 2020 - Jan 2020

    Technologies:
    Deep learning: Neural Network, TensorFlow
    Linear regression, Random Forest, variable selection, multiple time series.
    Python: pandas, Scikit-learn, SciPy, R.
    ggplot2

    PROJECT: Development of predictive models to estimate the final cost of several scopes: Engineering, Procurement, Installation and Construction in TechnipFMC Projects.
    Needs analysis, understand the job of project controllers and how thy estimate the final expenditure for each scope of a project.
    Exploration and analysis of 300 variables: Behavior, relationship and impact through visualizations with R’s library.
    Understand the problems of project controllers and formulate the objective of the models to be developed.
    Data analysis and exploration: identification of missing data and their causes according to the nature of the variables.
    Development of Python and R scripts to detect outliers and their corrections.
    Development of scripts for missing data handling according to several strategies studied with project controllers.
    Study of variables importance using random forest algorithms.
    Development of several new 'Features' (predictor variables) using data transformations and normalizations.
    Development of a predictive model using neural network with TensorFlow.
    Development of multiple linear regression models to help project controllers to correct their estimates on the one hand, and to forecast and anticipate actions on the other.
    Development of Forecast models using multiple time series algorithms.
    Testing and validation of the models using cross-validation by project.
    Writing of deliverables: python and R codes, documentation on methods and industrialization of models.

  • Consultant Data Scientist

    TechnipFMC (Client)
    Jan 2020 - Jan 2020

    Technologies :
    − Régression linéaire, Random Forest,
    sélection des variables, séries
    chronologiques multiples.,
    − Python: pandas, Scikit-learn, SciPy, R.
    − ggplot2
    PROJET : Etude et développement de plusieurs modèles prédictifs pour estimer
    les dépenses finales de l’ingénieries, des achats, les coûts d’installation et de
    construction des Projets de TechnipFMC.
    ▪ Etude du besoin, comprendre le métier des contrôleurs des projets et
    comment estiment les dépenses finales de chaque scope d’un projet.
    ▪ Etude et exploration de 300 variables : Comportement, relation et impact
    à l’aide des visualisations en utilisant la librairies ggplot2 de R.
    ▪ Comprendre la problématique des contrôleurs des projets et formulation
    de l’objective des modèles à élaborer.
    ▪ Analyse et exploration des données : identification des données
    manquantes et leurs causes selon la nature des variables.
    ▪ Développement des scriptes Python et R pour détecter les données
    aberrantes et leurs corrections.
    ▪ Développement des scripts pour traitement des données manquantes
    selon plusieurs stratégies étudiés avec les contrôleurs des projets.
    ▪ Etude des importances des variables par rapport la variable de sortie en
    utilisant les algorithmes des forêts aléatoires.
    ▪ Développement de plusieurs nouvelles ‘Features’ (variables prédicteurs) à
    l’aides des transformations et normalisations des données.
    ▪ Développement des modèles de régression linéaire multiple pour aider les
    contrôleurs des projets de corriger leurs estimations d’une part, et de
    prévoir et anticiper des actions d’autre part.
    ▪ Développement des modèles de Forecast en utilisant les algorithmes des
    séries chroniques multiples.
    ▪ Test et validation des modèles sont effectuées par la méthode des tes...

  • Tech Lead Data Science

    Bluescale (Internal project)
    Jan 2019 - Jan 2019

    Technologies:
    Linear regression, Random Forest, k-mode, variable selection, multiple time series.
    Python: pandas, Scikit-learn, SciPy.
    Microsoft Azure, Spark, Notebooks data.
    Power BI, ggplot2, mapview, leaflet, tmap.
    PROJECT: Predictive analyses of the availability rate of Belib' recharging stations for electric vehicles.
    Study and design the technical solution in Cloud Azure.
    Data collection, variables selection and data sources identification.
    New Features extraction and datasets construction.
    Data visualization: creation of the Dashboard via Power BI. Simulation of the availability and occupancy rates of the recharging sockets on the Paris map using the ggplot2, mapview and Leaflet library.
    Design and development of predictive models using Machine Learning algorithms:
    Rate availability prediction of 268 charging stations using multiple time series.
    Clustering of similar stations using the k-mode and k-means algorithm.
    Development of a linear regression model to estimate recharge occupancy times.
    Anomalies detection through classification using the Random Forest algorithm.
    Testing and validation, drafting of documentation.
    Support and coaching of junior ML developers.

  • Big Data Consultant

    Orange (Customer)
    Jan 2018 - Jan 2019

    Technologies:
    Hortonworks, Spark, Kafka, Hive, HBase, Elasticsearch, Kafka, HBase, Oozie Knox, Grafana.
    Python, Scala, java, Script Shell, R
    GIT, SVN.
    Multiple linear regression, Random Forest, time series
    PROJECT 1: Performance test of using machine learning in big data environment
    Participation in the design of the various test modules.
    Development of the module for testing Machine Learning algorithms in Scala and pyspark using Spark's MLlib library.
    Data processing and ingestion from Kafka to Elasticsearch indexes.
    Creation of new projects environment in Hive/HBase: access, creation of tables, execution of HQL queries.
    Deployment of test use case in Prod and preprod environments.
    Drafting of documentation.

    PROJECT 2: " Dispatcher Elasticsearch " Development of a Knox Dispatcher
    for connecting Grafana to Elasticsearch in multisearch mode.
    Study and investigation of data connection between the Grafana and Elasticsearch.
    Development of a new version of Knox's Elasticsearch Dispatcher Class to support multisearch queries from Grafana to Elasticsearch.
    Deployment of the patch in big data environments.
    Drafting of manual for installing the Dispatcher Elasticsearch patch

    PROJECT 3: Support of data scientists and Big data developers.
    Study and implementation of new tools in Big Data clusters according to the needs expressed by the Data Scientist teams and Big Data developers.
    Analysis and optimization of Hive queries, Spark scripts, Kafka flow, Oozie workflow.
    Support for Data Engineers/Data Scientists in the data processing and model design using Machines Learning.
    Drafting of technical documents for studies/reports.

  • Recherche & Développement

    BLUESCALE – PARIS
    Jan 2018 - aujourd'hui

    Thèse de doctorat (ICT Indicator Assessment)
    01/05/2020 à présent
    • Rédaction et publication de trois articles scientifiques :
    o Article 1 : nouveau système de pondération des indicateurs
    composites basé sur la mesure d’importance des variables par
    l’algorithme de « forêts aléatoires »
    o Construction d’un indicateur composite basé sur un modèle DEA
    multiplicatif et multicouche DEA-MM : Une étude de cas sur l'indice
    de l'économie et de la société numériques (DESI)
    o Mesure de l’efficacité de la e-stratégie nationale via le modèle DEAMM
    • Rédaction du rapport de thèse de doctorat

Voir le profil complet de ce freelance

Profils similaires parfois recherchés

CV Consultant PySpark, Missions Consultant PySpark, Consultant PySpark freelance

Les nouvelles missions de Consultant PySpark

Pilotage MOA transformation DATA H&B France

AZURE Microsoft Power BI PYSPARK
03/02/2025
92 - COURBEVOIE
24 mois
Voir la mission

Développeur Fullstack PYTHON / ANGULAR

PYTHON Angular REACT.JS Vue.js
20/01/2025
75 - Paris
12 mois
Voir la mission

Consultant DevOps

DATA PYTHON AZURE Cloud AWS
ASAP
92 - ANTONY
12 mois
Voir la mission

Data engineer JAVA / SPARK / PYTHON

JAVA APACHE SPARK PYTHON
ASAP
75 - Paris
6 mois
Voir la mission

Automaticien recette

POSTGRESQL JIRA HP QUALITY CENTER APACHE KAFKA PYSPARK
ASAP
92 - ISSY-LES-MOULINEAUX
12 mois
Voir la mission

Machine Learning Engineer

PYTHON PYSPARK
ASAP
79 - Niort
3 mois
Voir la mission

DATA ENGINEER

SCALA SQL PYSPARK JAVA
ASAP
69 - LYON
3 mois
Voir la mission

Data Analyst POWER BI Junior

Microsoft Power BI
ASAP
94 - Charenton le Pont
6 mois
Voir la mission

TechLead PySpark

PYSPARK APACHE HIVE CI/CD
ASAP
93 - Montreuil
3 mois
Voir la mission

Lead Dev Data Science

PYTHON JAVA PYSPARK JAVASCRIPT
ASAP
79 - Niort
3 mois
Voir la mission
Je trouve ma mission

Les profils de Consultant PySpark ont postulé à :

Consultant IA

IAM
ASAP
75 - PARIS
12 mois
Voir la mission

Développeur Python avec expertise en NLP et LLM

PYTHON LLM
ASAP
75 - PARIS
6 mois
Voir la mission

Data Scientist – Life Sciences (H/F)

DATA PYTHON APACHE HADOOP PANDAS TensorFlow
ASAP
69 - LYON
12 mois
Voir la mission

Machine Learning/ Testeur

PYTHON AZURE API RESTful
ASAP
75 - PARIS
12 mois
Voir la mission

DataOps AWS F/H

DATA Cloud AWS Amazon Kinesis AWS LAMBDA
ASAP
92 - BAGNEUX
3 mois
Voir la mission

Data Engineer Cloud AWS

PYTHON HASHICORP TERRAFORM Cloud AWS PYSPARK
ASAP
94 - MAISONS-ALFORT
12 mois
Voir la mission

Gen AI Engineer - Expert AWS

PYTHON Cloud AWS
ASAP
92 - MONTROUGE
120 mois
Voir la mission

Senior Data Engineer

GIT Cloud AWS
ASAP
Télétravail
12 mois
Voir la mission

Tech Lead DATA F/H

DATA AGILE AMAZON WEB SERVICES
ASAP
75 - PARIS
12 mois
Voir la mission

Data Analyst H/F

MATLAB DATA PYTHON BIG DATA Procédés industriels
ASAP
01 - MONTLUEL
12 mois
Voir la mission
Je trouve ma mission

Les derniers CV de Consultant PySpark disponibles

CV Data governance | Architect data | Data scientist | IA | Machine learning | AWS | QA automation | BI | Data strategist
Benoit-Labre

Data governance | Architect data | Data scientist | IA | Machine learning | AWS | QA automation | BI | Data strategist

  • PARIS
SELENIUM BIG DATA JAVA SQL MYSQL GITLAB Microsoft Azure Machine Learning PYTHON
CV Data Engineer / Data Scientist
Josephine

Data Engineer / Data Scientist

  • LE VÉSINET
PYTHON Data science PANDAS GIT Airflow PYSPARK SQL Google Cloud Platform Cloud AWS DEVOPS
CV Data Scientist PYTHON
Lucas

Data Scientist PYTHON

  • MARSEILLE
PYTHON SQL LINUX DOCKER GIT Microsoft Power BI NODE.JS R
Bientôt disponible
CV Lead Data Scientist - Manager Data Science - 11 ans d’expérience
Romeo

Lead Data Scientist - Manager Data Science - 11 ans d’expérience

  • ISSY-LES-MOULINEAUX
BIG DATA PYTHON APACHE SPARK PROJECT MANAGEMENT OFFICE DATA Dataiku Google Cloud Platform Kubernetes DOCKER
Bientôt disponible
CV Data Scientist / Engineer
Ismail

Data Scientist / Engineer

  • PARIS
Data science PYTHON SQL Cloud AWS PYSPARK GIT Microsoft Power BI LLM AZURE Google Cloud Platform
Bientôt disponible
CV Développeur fullstack
Thouraya

Développeur fullstack

  • GIF-SUR-YVETTE
SQL PYTHON DJANGO REST MONGODB POSTGRES
Disponible
CV Développeur fullstack
Kotonirina Jean De Dieu

Développeur fullstack

  • VITRY-SUR-SEINE
PYTHON JAVASCRIPT JAVA Spring Boot DJANGO REACT.JS NestJS Express.js DOCKER Angular
Disponible
CV Machine Learning Engineer
Nelly

Machine Learning Engineer

  • PARIS
PYTHON DOCKER SQL SAS CSS Google Cloud Platform HASHICORP TERRAFORM APACHE KAFKA APACHE SPARK
Disponible
CV Ingénieur commercial WORD
Romain

Ingénieur commercial WORD

  • PARIS
WORD
Disponible
CV Data Analyst
Anas

Data Analyst

  • PARIS
EXCEL Microsoft Power BI PYTHON TABLEAU SOFTWARE DATA SQL BIGQUERY DATAVIZ Alteryx TALEND
Disponible
Je trouve mon freelance