Data Engineer sur GCP obligatoire
Ref : 210706H001-
Date de débutASAP
-
Localisation
PARIS
-
Durée12 mois (renouvelables)
-
Profil
Data Scientist, Data Analyst
Compétences requises
Description de la mission
1-Description du besoin
La prestation consiste à assurer les activités de Data engineering.(Voir livrables ci-dessous)
Architecture fonctionnelle du projet :
Les données brutes de satisfaction sont stockées dans des Raw zones du datalake du client (GCP).
Les données préparées dans la Gold zone CGS s’alimentent de données des raw zones.
Le but de la CGS est d’exposer les données retraitées au sein d’une zone de données accessible à d’autres projets
Une expertise est attendue sur les tâches suivantes :
En phase de conception :
Analyse de données pour concevoir les scénarios de traitements
Participation à la définition du modèle de données
Conception des chaines d’ingestion des données
Conception des chaines préparation des données
Participation à la selection des services / solutions à utiliser en fonction des usages
En phase de réalisation :
Mise en œuvre des chaines de traitement de données
Indexation des données
Ordonnancement des jobs
Test des jobs et requêtes
Documentation
En phase d’intégration, déploiement et vie opérationnelle :
Optimisation de performance et de consommation de ressource cloud
Participation à la résolution de problèmes (suivi de jobs, analyse de logs, analyse de cas de données,…)
2-Livrables
Document de Modélisation et structuration des données.
Document de définition des règles de gestion
Synthèses, tableaux de bord d’analyse des données, reportings
Mise en place des chaînes de traitement de la data, de l’ingestion à l’exposition, sur la Plateforme GCP selon les préconisations client.
Mise en place des dashboards de monitoring de disponibilité et des rapports d’usage et de performance.
2-Savoir-faire du prestataire:
Les connaissances techniques requises :
Maitrise de Spark, Scala
Pratique confirmée de Cloud GCP : BigQuery, CloudStorage, CloudComposer / Airflow, DataFlow, Dataproc, Terraform
GitLabEE
L’expérience de modélisation de données, et de stratégie de tests.
Une connaissance des notebooks data, de GCP datastudio et d’ElasticSearch est un plus.
Projet en méthode Agile
Anglais (Documentation écrite + Partage avec des équipes internationales)
La prestation consiste à assurer les activités de Data engineering.(Voir livrables ci-dessous)
Architecture fonctionnelle du projet :
Les données brutes de satisfaction sont stockées dans des Raw zones du datalake du client (GCP).
Les données préparées dans la Gold zone CGS s’alimentent de données des raw zones.
Le but de la CGS est d’exposer les données retraitées au sein d’une zone de données accessible à d’autres projets
Une expertise est attendue sur les tâches suivantes :
En phase de conception :
Analyse de données pour concevoir les scénarios de traitements
Participation à la définition du modèle de données
Conception des chaines d’ingestion des données
Conception des chaines préparation des données
Participation à la selection des services / solutions à utiliser en fonction des usages
En phase de réalisation :
Mise en œuvre des chaines de traitement de données
Indexation des données
Ordonnancement des jobs
Test des jobs et requêtes
Documentation
En phase d’intégration, déploiement et vie opérationnelle :
Optimisation de performance et de consommation de ressource cloud
Participation à la résolution de problèmes (suivi de jobs, analyse de logs, analyse de cas de données,…)
2-Livrables
Document de Modélisation et structuration des données.
Document de définition des règles de gestion
Synthèses, tableaux de bord d’analyse des données, reportings
Mise en place des chaînes de traitement de la data, de l’ingestion à l’exposition, sur la Plateforme GCP selon les préconisations client.
Mise en place des dashboards de monitoring de disponibilité et des rapports d’usage et de performance.
2-Savoir-faire du prestataire:
Les connaissances techniques requises :
Maitrise de Spark, Scala
Pratique confirmée de Cloud GCP : BigQuery, CloudStorage, CloudComposer / Airflow, DataFlow, Dataproc, Terraform
GitLabEE
L’expérience de modélisation de données, et de stratégie de tests.
Une connaissance des notebooks data, de GCP datastudio et d’ElasticSearch est un plus.
Projet en méthode Agile
Anglais (Documentation écrite + Partage avec des équipes internationales)
D'autres offres
Data Scientist PYTHON
Ces missions pourraient vous intéresser !
Postuler
Contacter