CV développeur hadoop cloudera : recevez facilement les meilleurs profils

Vous êtes freelance ?

Sécurisez votre activité grâce au portage salarial !

Exemple de missions d'Ousmane,
Développeur Hadoop Cloudera habitant le Val-de-Marne (94)

Développeur Big DATA

GCP
Jan 2022 - Jan 2024
Migration des jobs Spark/scala on premise vers GCP
Optimisation des traitements
Intégration des données de différentes sources
Documentation

Missions
â¼ Formalisation des besoins
â¼ Rédaction des documents techniques
â¼ Ingestion des données dans Cloud Storage
â¼ Identification de l’architecture et les outils de travail
â¼ Import des données dans un bucket Cloud Storage
â¼ Développement des jobs Dataproc/Dataflow de
transformation
â¼ Implémentation des tests unitaires
â¼ Sauvegarde des données dans Cloud Storage
â¼ Analyse des données avec BigQuery
â¼ Création de tables BigQuery pour requêter les données
â¼ Planification des traitements avec Cloud Composer
(Airflow)
â¼ Utilisation de Cloud logging, Monitoring
â¼ Déploiement continue avec Cloud Build
â¼ Stockage des artefacts dans Artifact Registry
â¼ Optimisation des traitements Dataproc
â¼ Migration des jobs dataproc en jobs dataflow (Java)
â¼ Mise en homologation
â¼ Mise en production
â¼ Veille technologique
â¼ Documentation
ENVIRONNEMENT TECHNIQUE â¼ Système : Unix/Linux â¼ Outils: Cloud Dataflow, Cloud Storage, BigQuery, Cloud logging, Cloud Monitoring, Cloud Dataproc, Cloud Composer, Cloud Build, Artifact Registry â¼ Langages: Scala, Java, SQL
Tech Lead Big DATA

Société Générale
Jan 2021 - Jan 2024
Domaine Big Data
Projet : Revue analytique, Revue des comptes consolidés, certification comptable, refinancement implicite
Equipe initiale de 15 personnes (RESG/CFT/FIN)
Environnement principal : Hadoop Cloudera, Spark, Presto (Trino), Cube SSAS, Power BI
Développeur Big DATA

Groupe Fnac Darty
Jan 2018 - Jan 2021
Domaine Big Data
Projet principal : Référentiel Client Groupe (RCG)
Equipe de 12 personnes.
Environnement principal : HADOOP MAPR, TERADATA
Ingénieur études et développements

CACIB
Jan 2017 - Jan 2017
Problématique : Centralisation de tous les logs des bases de données et analyse
MISSIONS
â¼ Etudes de besoins utilisateurs (DBA / MOE)
â¼ Benchmark : Splunk vs Graylog
â¼ Etudes des solutions techniques possibles
â¼ Réalisation d’un POC
â¼ Installation des outils :
Filebeat, Kafka, Streamset, Elasticsearch, Kibana
â¼ Configuration de l’agent Filebeat
â¼ Configuration de Kafka et création des topics
â¼ Création de pipelines et transformation des données avec Streamset
â¼ Stockage des données dans Elasticsearch
â¼ Création des Dashboard avec Kibana
â¼ Rédaction de la documentation
â¼ Présentation de la solution aux utilisateurs
ENVIRONNEMENT TECHNIQUE â¼ Système : Redhat 6.0, Windows 7 â¼ Langages : python Outils : Streamset, Filebeat, Kafka, Streamset, Elasticsearch, Kibana â¼ Bases de données : Oracle, SQL Server, Sybase, ElasticSearch
Développeur Big DATA

CACIB
Jan 2016 - Jan 2017
Entité du groupe crédit agricole qui gère la partie investissement et financement
Utilisateurs : DBA, MOE, Incidents Manager, Incidents problem
Problématique :
- Comment automatiser les rapports sur les incidents de production ?
- Développement de nouveaux modules pour une application qui contient tout l’inventaire de CACIB côté
infrastructures (Clusters, Hosts, Applications, Databases, etc., …)
Exemple : Dashboard sur les incidents de production, test de DRP (Disaster Recovery Plan), test de Licence, Monitoring des
bases de données

MISSIONS
â¼ Etudes de besoins utilisateurs
â¼ Etudes des solutions techniques possibles
â¼ Création d’un datalake
â¼ Stockage des données sur HDFS
â¼ Création de jobs Spark pour analyser les données
â¼ Création de Dashboard avec Zeppelin
â¼ Rédaction de la documentation
â¼ Formation des utilisateurs
ENVIRONNEMENT TECHNIQUE â¼ Système : Redhat 6.0 â¼ Langages : Scala, Python, Java â¼ Framework : Hadoop, Spark, â¼ Outils : Streamset, SQL Developer, SQL Server Management studio, Zeppelin â¼ Bases de données : Oracle, SQL Server, Sybase
aujourd'hui
Problématique :
- Migration technique de Hortonworks vers Cloudera
- Mise en place de norme de développement de jobs Spark
- Migration des flux Talend vers Spark/scala
- Etude de faisabilité technique
- Analyse, conception et implémentation des besoins métier avec Spark/Scala
- Intégration et déploiement continue via jenkins/Ansible (awx)
- Planification des traitements dans control M
- Optimisation des traitements Spark/scala
- Veille technologique
- Documentation
- Correction des bugs/anomalies en production
- Cryptage des données
- Alimentation du cube SSAS
- Archivage des données
- Animation des réunions
- Intégration des données de sources diverses (fichiers, base de données, API)

MISSIONS
â¼ Analyse du besoin et ateliers de cadrage
â¼ Etude de faisabilité technique
â¼ Estimation et planification
â¼ Rédaction des spécifications techniques
â¼ Migration des flux Talend big data vers Spark/Scala
â¼ Maintien de l'exploitabilité des développements
â¼ Gestion des interactions avec les utilisateurs tout au long du
projet
â¼ Support (Documentation technique et mise à jour des documents
associés)
â¼ Aide au suivi de production
â¼ Analyse, Conception et implémentation des jobs Spark par rapport
aux règles métier
â¼ Développement des tests unitaires
â¼ Développement des pipelines d’intégration continue avec Jenkins
â¼ Développement des Playbooks ansible -générique) de
déploiement des jobs
â¼ Planification des jobs avec Control M
â¼ Mise en homologation
â¼ Mise en production
â¼ Correction des anomalies
â¼ Mise en place d’une norme de développement des jobs Spark
â¼ Supervision des développements
â¼ Gestion des tables externes Hive
â¼ Alimentation des tables PostgreSQL avec Spark
ENVIRONNEMENT TECHNIQUE â¼ Système : Linux â¼ Langages : Scala, SQL, Shell â¼ Base de données : SQL Server, PostgreSQL â¼ Framework : Hadoop Cloudera, Spark â¼ Outils: Jenkins, Control M, Ansible, Hive, Dbeaver, Power BI, Git, Jira, Awx, Spark SQL, Talend Data intégration, Talend Big data, TAC, AWX, Docker, Kubernetes â¼ Méthodologie : Agile
Développeur Big DATA

Databricks
aujourd'hui
Projet Personnel
Migration de traitements Spark vers Databricks sur GCP
TACHES
â¼ Création de Workspace
â¼ Gestion des clusters
â¼ Implémentation des règles métier avec Databricks/Spark
â¼ Planification des traitements
â¼ Création de tables delta lake
â¼ Sauvegarde des données
â¼ TMA
â¼ Formation des utilisateurs
â¼ Veille technologique
â¼ Documentation
ENVIRONNEMENT TECHNIQUE â¼ Système : Unix/Linux â¼ Outils: Databricks, Spark, delta lake â¼ Langages: Python, SQL
aujourd'hui
Problématique :
- Création et alimentation du datalake (différentes sources de données)
- Mise en place de solution générique d’import de données dans Hadoop avec système de reprise (plus de 500 tables)
- Import de données dans Hadoop
- Export de données vers Teradata
- Regroupement des clients
- Génération des identifiants groupe
- Déduplication des données
- Génération des fiches de paramétrage
- Respect des contraintes RGPD
- Séparation des données personnelles et non personnelles
- Développement de jobs avec des mécanismes de reprise
- Création des tables techniques de paramétrage
- Génération des tables cibles Hive et Hbase
- Scripting Shell, Awk, Sed
- Manipulation et extraction des données à partir de fichier par position
- TMA Hadoop

MISSIONS
â¼ Création de datalake (données provenant de différentes
sources de données)
â¼ Import de données dans Hadoop
â¼ Export de données vers Teradata
â¼ Génération des fiches de paramétrage
â¼ Développement de jobs talend
â¼ Développement d’un job générique d’import des données
d’une source externe vers Hadoop
â¼ Développement d’un job générique d’export des données
de Hadoop vers Teradata
â¼ Automatisation de déploiement de job sur la TAC
â¼ Développement de scripts python pour générer des fiches
de paramétrage du job d’import
â¼ Développement de scripts python pour générer des fiches
de paramétrage du job d’export
â¼ Développement de scripts python pour générer des fiches
de paramétrage du job d’import de fichier vers Hadoop
â¼ Génération des commandes SQL via Talend
â¼ Insertion des données dans Hive via Talend
â¼ Insertion des données dans HBase via Talend
â¼ Rédaction de manuel d’utilisateur
â¼ Formation des utilisateurs (job d’import)
â¼ Respect des contraintes RGPD, TMA
â¼ Release d’anciens jobs
â¼ POC de comparaison du moteur de déduplication
â¼ Développement de jobs Spark pour le POC du moteur de
déduplication des données
â¼ Mise en place de table de suivi de job permettant de gérer
les reprises
ENVIRONNEMENT TECHNIQUE â¼ Système : Linux â¼ Langages : Scala, Python â¼ Outils: Talend, SQL Developer, Hive, Hbase â¼ Base de données : Teradata â¼ Framework : Hadoop MAPR, Spark, â¼ Outils : TAC, Shell, Awk, Sed
Université Paris Dauphine Master 2
aujourd'hui
Problématique :
- Générer un corpus de document dans lequel se répètent plusieurs mots croisés.
- Générer la matrice des occurrences des mots croisés pour tout le corpus (ensemble de documents)
- Projet réalise sur les Framework Hadoop et Spark
TACHES
â¼ Implémentation des jobs map/reduce pour
â¼ générer le corpus avec Hadoop (java)
â¼ Implémentation des jobs spark pour
â¼ générer le corpus avec Spark (scala)
â¼ Implémentation des jobs map/reduce pour
â¼ générer la matrice des co-occ...

Voir le profil complet de ce freelance

Les derniers profils de Développeur Hadoop Cloudera connectés

Data Engineer

PARIS

APACHE SPARK Databricks PYSPARK Cloud AWS DOCKER JENKINS AZURE HASHICORP TERRAFORM ELK Kubernetes

Architecte Technique Data

MASSY

APACHE HADOOP APACHE HBASE APACHE KAFKA KERBEROS ACTIVE DIRECTORY ELASTICSEARCH ORACLE Kubernetes

Disponible

Architecte IT

CABASSE

AZURE OPENSTACK VMWARE ESX AGILE DATA SECURITE LINUX Cloud AWS CI/CD

Disponible

Senior Data Engineer

MONTPELLIER

PYTHON JAVA SCALA SQL Google Cloud Platform APACHE SPARK C++ Kubernetes DOCKER PHP

Disponible

Project Manager & Scrum Master

MARSEILLE

KANBAN AGILE SCRUM JIRA SAFE CONFLUENCE RISQUE PMO PMI PMP ENTERPRISE ARCHITECT

Disponible

Consultant TALEND

NANTES

TALEND DI SQL TABLEAU SOFTWARE BIGQUERY GOOGLE DATA STUDIO SALESFORCE

Data Analyst

BROU-SUR-CHANTEREINE

TABLEAU SOFTWARE SQL Snowflake Microsoft Power BI BI DATAVIZ TALEND DI Cloud AWS PYTHON

Disponible

Ingénieur de production - DevOps

PARIS

LINUX BIG DATA DEVOPS Cloudera REDHAT Kubernetes OPEN SOURCE WEBSPHERE REDHAT OPENSHIFT DOCKER

Disponible

Ingénieur Big Data

RUEIL-MALMAISON

APACHE HADOOP PYTHON SQL APACHE SPARK AZURE Microsoft Power BI Google Cloud Platform Cloud AWS SCALA DEVOPS

Disponible

Chef de projet BI

CHELLES

BI INFORMATICA BUSINESS OBJECTS APACHE HIVE BIG DATA Google Cloud Platform APACHE SPARK Microsoft Power BI GITLAB BIGQUERY

Bientôt disponible

Data Engineer

PARIS

APACHE SPARK Databricks PYSPARK Cloud AWS DOCKER JENKINS AZURE HASHICORP TERRAFORM ELK Kubernetes

Architecte Technique Data

MASSY

APACHE HADOOP APACHE HBASE APACHE KAFKA KERBEROS ACTIVE DIRECTORY ELASTICSEARCH ORACLE Kubernetes

Disponible

Architecte IT

CABASSE

AZURE OPENSTACK VMWARE ESX AGILE DATA SECURITE LINUX Cloud AWS CI/CD

Disponible

Senior Data Engineer

MONTPELLIER

PYTHON JAVA SCALA SQL Google Cloud Platform APACHE SPARK C++ Kubernetes DOCKER PHP

Disponible

Project Manager & Scrum Master

MARSEILLE

KANBAN AGILE SCRUM JIRA SAFE CONFLUENCE RISQUE PMO PMI PMP ENTERPRISE ARCHITECT

Disponible

Consultant TALEND

NANTES

TALEND DI SQL TABLEAU SOFTWARE BIGQUERY GOOGLE DATA STUDIO SALESFORCE

Data Analyst

BROU-SUR-CHANTEREINE

TABLEAU SOFTWARE SQL Snowflake Microsoft Power BI BI DATAVIZ TALEND DI Cloud AWS PYTHON

Disponible

Ingénieur de production - DevOps

PARIS

LINUX BIG DATA DEVOPS Cloudera REDHAT Kubernetes OPEN SOURCE WEBSPHERE REDHAT OPENSHIFT DOCKER

Disponible

Ingénieur Big Data

RUEIL-MALMAISON

APACHE HADOOP PYTHON SQL APACHE SPARK AZURE Microsoft Power BI Google Cloud Platform Cloud AWS SCALA DEVOPS

Disponible

Chef de projet BI

CHELLES

BI INFORMATICA BUSINESS OBJECTS APACHE HIVE BIG DATA Google Cloud Platform APACHE SPARK Microsoft Power BI GITLAB BIGQUERY

Bientôt disponible

Data Engineer

PARIS

APACHE SPARK Databricks PYSPARK Cloud AWS DOCKER JENKINS AZURE HASHICORP TERRAFORM ELK Kubernetes

Architecte Technique Data

MASSY

APACHE HADOOP APACHE HBASE APACHE KAFKA KERBEROS ACTIVE DIRECTORY ELASTICSEARCH ORACLE Kubernetes

Disponible

Architecte IT

CABASSE

AZURE OPENSTACK VMWARE ESX AGILE DATA SECURITE LINUX Cloud AWS CI/CD

Disponible

Je trouve mon freelance

Exemple de missions d'Ousmane, Développeur Hadoop Cloudera habitant le Val-de-Marne (94)

Développeur Big DATA

Tech Lead Big DATA

Développeur Big DATA

Ingénieur études et développements

Développeur Big DATA

Développeur Big DATA

Les derniers profils de Développeur Hadoop Cloudera connectés

Senior Data Engineer

Project Manager & Scrum Master

Consultant TALEND

Exemple de missions d'Ousmane,
Développeur Hadoop Cloudera habitant le Val-de-Marne (94)