CV Développeur Hadoop Cloudera : Les meilleurs freelances enregistrés

Je dépose une mission gratuitement
Je dépose mon CV
Vous êtes freelance ?
Sécurisez votre activité grâce au portage salarial !

Exemple de missions d'Ousmane,
Développeur Hadoop Cloudera habitant le Val-de-Marne (94)

  • Développeur Big DATA

    GCP
    Jan 2022 - Jan 2024

    Migration des jobs Spark/scala on premise vers GCP
    Optimisation des traitements
    Intégration des données de différentes sources
    Documentation

    Missions
    ◼ Formalisation des besoins
    ◼ Rédaction des documents techniques
    ◼ Ingestion des données dans Cloud Storage
    ◼ Identification de l’architecture et les outils de travail
    ◼ Import des données dans un bucket Cloud Storage
    ◼ Développement des jobs Dataproc/Dataflow de
    transformation
    ◼ Implémentation des tests unitaires
    ◼ Sauvegarde des données dans Cloud Storage
    ◼ Analyse des données avec BigQuery
    ◼ Création de tables BigQuery pour requêter les données
    ◼ Planification des traitements avec Cloud Composer
    (Airflow)
    ◼ Utilisation de Cloud logging, Monitoring
    ◼ Déploiement continue avec Cloud Build
    ◼ Stockage des artefacts dans Artifact Registry
    ◼ Optimisation des traitements Dataproc
    ◼ Migration des jobs dataproc en jobs dataflow (Java)
    ◼ Mise en homologation
    ◼ Mise en production
    ◼ Veille technologique
    ◼ Documentation

    ENVIRONNEMENT TECHNIQUE ◼ Système : Unix/Linux ◼ Outils: Cloud Dataflow, Cloud Storage, BigQuery, Cloud logging, Cloud Monitoring, Cloud Dataproc, Cloud Composer, Cloud Build, Artifact Registry ◼ Langages: Scala, Java, SQL
  • Tech Lead Big DATA

    Société Générale
    Jan 2021 - Jan 2024

    Domaine Big Data
    Projet : Revue analytique, Revue des comptes consolidés, certification comptable, refinancement implicite
    Equipe initiale de 15 personnes (RESG/CFT/FIN)

    Environnement principal : Hadoop Cloudera, Spark, Presto (Trino), Cube SSAS, Power BI
  • Développeur Big DATA

    Groupe Fnac Darty
    Jan 2018 - Jan 2021

    Domaine Big Data
    Projet principal : Référentiel Client Groupe (RCG)
    Equipe de 12 personnes.

    Environnement principal : HADOOP MAPR, TERADATA
  • Ingénieur études et développements

    CACIB
    Jan 2017 - Jan 2017

    Problématique : Centralisation de tous les logs des bases de données et analyse
    MISSIONS
    ◼ Etudes de besoins utilisateurs (DBA / MOE)
    ◼ Benchmark : Splunk vs Graylog
    ◼ Etudes des solutions techniques possibles
    ◼ Réalisation d’un POC
    ◼ Installation des outils :
    Filebeat, Kafka, Streamset, Elasticsearch, Kibana
    ◼ Configuration de l’agent Filebeat
    ◼ Configuration de Kafka et création des topics
    ◼ Création de pipelines et transformation des données avec Streamset
    ◼ Stockage des données dans Elasticsearch
    ◼ Création des Dashboard avec Kibana
    ◼ Rédaction de la documentation
    ◼ Présentation de la solution aux utilisateurs

    ENVIRONNEMENT TECHNIQUE ◼ Système : Redhat 6.0, Windows 7 ◼ Langages : python Outils : Streamset, Filebeat, Kafka, Streamset, Elasticsearch, Kibana ◼ Bases de données : Oracle, SQL Server, Sybase, ElasticSearch
  • Développeur Big DATA

    CACIB
    Jan 2016 - Jan 2017

    Entité du groupe crédit agricole qui gère la partie investissement et financement
    Utilisateurs : DBA, MOE, Incidents Manager, Incidents problem
    Problématique :
    - Comment automatiser les rapports sur les incidents de production ?
    - Développement de nouveaux modules pour une application qui contient tout l’inventaire de CACIB côté
    infrastructures (Clusters, Hosts, Applications, Databases, etc., …)
    Exemple : Dashboard sur les incidents de production, test de DRP (Disaster Recovery Plan), test de Licence, Monitoring des
    bases de données

    MISSIONS
    ◼ Etudes de besoins utilisateurs
    ◼ Etudes des solutions techniques possibles
    ◼ Création d’un datalake
    ◼ Stockage des données sur HDFS
    ◼ Création de jobs Spark pour analyser les données
    ◼ Création de Dashboard avec Zeppelin
    ◼ Rédaction de la documentation
    ◼ Formation des utilisateurs

    ENVIRONNEMENT TECHNIQUE ◼ Système : Redhat 6.0 ◼ Langages : Scala, Python, Java ◼ Framework : Hadoop, Spark, ◼ Outils : Streamset, SQL Developer, SQL Server Management studio, Zeppelin ◼ Bases de données : Oracle, SQL Server, Sybase
  • aujourd'hui

    Problématique :
    - Migration technique de Hortonworks vers Cloudera
    - Mise en place de norme de développement de jobs Spark
    - Migration des flux Talend vers Spark/scala
    - Etude de faisabilité technique
    - Analyse, conception et implémentation des besoins métier avec Spark/Scala
    - Intégration et déploiement continue via jenkins/Ansible (awx)
    - Planification des traitements dans control M
    - Optimisation des traitements Spark/scala
    - Veille technologique
    - Documentation
    - Correction des bugs/anomalies en production
    - Cryptage des données
    - Alimentation du cube SSAS
    - Archivage des données
    - Animation des réunions
    - Intégration des données de sources diverses (fichiers, base de données, API)

    MISSIONS
    ◼ Analyse du besoin et ateliers de cadrage
    ◼ Etude de faisabilité technique
    ◼ Estimation et planification
    ◼ Rédaction des spécifications techniques
    ◼ Migration des flux Talend big data vers Spark/Scala
    ◼ Maintien de l'exploitabilité des développements
    ◼ Gestion des interactions avec les utilisateurs tout au long du
    projet
    ◼ Support (Documentation technique et mise à jour des documents
    associés)
    ◼ Aide au suivi de production
    ◼ Analyse, Conception et implémentation des jobs Spark par rapport
    aux règles métier
    ◼ Développement des tests unitaires
    ◼ Développement des pipelines d’intégration continue avec Jenkins
    ◼ Développement des Playbooks ansible -générique) de
    déploiement des jobs
    ◼ Planification des jobs avec Control M
    ◼ Mise en homologation
    ◼ Mise en production
    ◼ Correction des anomalies
    ◼ Mise en place d’une norme de développement des jobs Spark
    ◼ Supervision des développements
    ◼ Gestion des tables externes Hive
    ◼ Alimentation des tables PostgreSQL avec Spark

    ENVIRONNEMENT TECHNIQUE ◼ Système : Linux ◼ Langages : Scala, SQL, Shell ◼ Base de données : SQL Server, PostgreSQL ◼ Framework : Hadoop Cloudera, Spark ◼ Outils: Jenkins, Control M, Ansible, Hive, Dbeaver, Power BI, Git, Jira, Awx, Spark SQL, Talend Data intégration, Talend Big data, TAC, AWX, Docker, Kubernetes ◼ Méthodologie : Agile
  • Développeur Big DATA

    Databricks
    aujourd'hui

    Projet Personnel
    Migration de traitements Spark vers Databricks sur GCP
    TACHES
    ◼ Création de Workspace
    ◼ Gestion des clusters
    ◼ Implémentation des règles métier avec Databricks/Spark
    ◼ Planification des traitements
    ◼ Création de tables delta lake
    ◼ Sauvegarde des données
    ◼ TMA
    ◼ Formation des utilisateurs
    ◼ Veille technologique
    ◼ Documentation

    ENVIRONNEMENT TECHNIQUE ◼ Système : Unix/Linux ◼ Outils: Databricks, Spark, delta lake ◼ Langages: Python, SQL
  • aujourd'hui

    Problématique :
    - Création et alimentation du datalake (différentes sources de données)
    - Mise en place de solution générique d’import de données dans Hadoop avec système de reprise (plus de 500 tables)
    - Import de données dans Hadoop
    - Export de données vers Teradata
    - Regroupement des clients
    - Génération des identifiants groupe
    - Déduplication des données
    - Génération des fiches de paramétrage
    - Respect des contraintes RGPD
    - Séparation des données personnelles et non personnelles
    - Développement de jobs avec des mécanismes de reprise
    - Création des tables techniques de paramétrage
    - Génération des tables cibles Hive et Hbase
    - Scripting Shell, Awk, Sed
    - Manipulation et extraction des données à partir de fichier par position
    - TMA Hadoop

    MISSIONS
    ◼ Création de datalake (données provenant de différentes
    sources de données)
    ◼ Import de données dans Hadoop
    ◼ Export de données vers Teradata
    ◼ Génération des fiches de paramétrage
    ◼ Développement de jobs talend
    ◼ Développement d’un job générique d’import des données
    d’une source externe vers Hadoop
    ◼ Développement d’un job générique d’export des données
    de Hadoop vers Teradata
    ◼ Automatisation de déploiement de job sur la TAC
    ◼ Développement de scripts python pour générer des fiches
    de paramétrage du job d’import
    ◼ Développement de scripts python pour générer des fiches
    de paramétrage du job d’export
    ◼ Développement de scripts python pour générer des fiches
    de paramétrage du job d’import de fichier vers Hadoop
    ◼ Génération des commandes SQL via Talend
    ◼ Insertion des données dans Hive via Talend
    ◼ Insertion des données dans HBase via Talend
    ◼ Rédaction de manuel d’utilisateur
    ◼ Formation des utilisateurs (job d’import)
    ◼ Respect des contraintes RGPD, TMA
    ◼ Release d’anciens jobs
    ◼ POC de comparaison du moteur de déduplication
    ◼ Développement de jobs Spark pour le POC du moteur de
    déduplication des données
    ◼ Mise en place de table de suivi de job permettant de gérer
    les reprises

    ENVIRONNEMENT TECHNIQUE ◼ Système : Linux ◼ Langages : Scala, Python ◼ Outils: Talend, SQL Developer, Hive, Hbase ◼ Base de données : Teradata ◼ Framework : Hadoop MAPR, Spark, ◼ Outils : TAC, Shell, Awk, Sed
  • Université Paris Dauphine Master 2
    aujourd'hui

    Problématique :
    - Générer un corpus de document dans lequel se répètent plusieurs mots croisés.
    - Générer la matrice des occurrences des mots croisés pour tout le corpus (ensemble de documents)
    - Projet réalise sur les Framework Hadoop et Spark
    TACHES
    ◼ Implémentation des jobs map/reduce pour
    ◼ générer le corpus avec Hadoop (java)
    ◼ Implémentation des jobs spark pour
    ◼ générer le corpus avec Spark (scala)
    ◼ Implémentation des jobs map/reduce pour
    ◼ générer la matrice des co-occ...

Voir le profil complet de ce freelance

Les derniers profils de Développeur Hadoop Cloudera connectés

CV Data PM & Architect / Senior Data Scientist
Tahar

Data PM & Architect / Senior Data Scientist

  • JOUY-LE-MOUTIER
Data science BI R APACHE HIVE DATAVIZ BIG DATA APACHE HADOOP Data lake PYTHON APACHE SPARK
Disponible
CV TECH LEAD DATA ENGINEER SENIOR
Moncif

TECH LEAD DATA ENGINEER SENIOR

  • Ruel
SQL BI BIG DATA INFORMATICA TERADATA VTOM SCRIPT SHELL Snowflake Cloud AWS PYTHON
Disponible
CV Architecte Solution BIG DATA
Copain Bertrand

Architecte Solution BIG DATA

  • NANTEUIL-LÈS-MEAUX
BIG DATA Cloudera Data science
Bientôt disponible
CV Data Engineer SQL
Ahmed

Data Engineer SQL

  • PARIS
SQL BI AGILE TERADATA DATAWAREHOUSE Data lake MVS MAINFRAME Microsoft Power BI AZURE
Disponible
CV Ingénieur de production - DevOps
Mamadou Lamine

Ingénieur de production - DevOps

  • PARIS
LINUX BIG DATA DEVOPS Cloudera REDHAT Kubernetes OPEN SOURCE WEBSPHERE REDHAT OPENSHIFT DOCKER
Disponible
CV Architecte Solutions
Epo

Architecte Solutions

  • Poissy
JAVA UNIX J2EE DESIGN PATTERNS TOGAF ARCHIMATE SAFE DDD
Disponible
CV Développeur TALEND
Axel Lyacine

Développeur TALEND

  • PARIS
TALEND Snowflake SAP BO ORACLE SQL SQL SERVER BI Microsoft Power BI BIG DATA Google Cloud Platform Cloud AWS
Disponible
CV Data engineer
Alexandru

Data engineer

  • MONTPELLIER
PYTHON JAVA SCALA SQL Google Cloud Platform APACHE SPARK C++ Kubernetes DOCKER PHP
Disponible
CV Architecte ORACLE
Jean-Luc

Architecte ORACLE

  • ROISSY-EN-BRIE
ORACLE APACHE SPARK APACHE KAFKA UNIX SYSTEMES EMBARQUES APACHE HADOOP APACHE HIVE
Disponible
CV Architecte BIG DATA DEVOPS
Salah Amine

Architecte BIG DATA DEVOPS

  • Paris
APACHE HADOOP BIG DATA APACHE HIVE JAVA PYTHON KERBEROS APACHE HBASE APACHE SPARK DEVOPS APACHE KAFKA
Disponible
Je trouve mon freelance