Missions et Tâches :
Élaborer des documents et des spécifications de conception technique qui intègrent les normes et les meilleures pratiques de développement du big data.
S'assurer que d'excellentes pratiques sont utilisées dans la livraison de Big Data.
Utiliser de manière experte le traitement distribué/parallèle pour la conception et le développement de solutions pipeline data.
Créer de nouvelles méthodes pour le Big Data et diriger le développement d'accélérateurs.
Travailler dans une équipe agile en appliquant Scrum et le développement agile.
Concevoir et mettre en œuvre des workflows à l'aide de Talend et de scripts Unix/Linux pour réaliser des ETL.
Développe et construit des cadres/prototypes qui intègrent le big data et les analyses avancées pour prendre des décisions commerciales.
Effectuer l'analyse des ensembles de données et découvrir des informations.
Implémenter le Tuning des performances pour YARN, Hive, Hive on Spark.
Sécuriser le cluster par Kerberos, TLS/SSL.
Activer la haute disponibilité pour HDFS, YARN, HIVE et HUE.
Gérer et optimiser les clusters Hadoop/Spark, qui inclure plusieurs instances HBase de grande taille.
Projet 1 : Transcription
Missions et tâches:
Transcription d'un discours prononcé par un locuteur en contenu textuel de manière automatisée.
En utilisant une reconnaissance vocale hors ligne, des modèles pré-entraînés pour 17 langues et dialectes - arabe, français, anglais, ...
Projet 1 : Tableau Developer
Missions et tâches:
Création de tableaux de bord pour l'analyse des données des points de vente à l'aide de Tableau 8.0.
Participation constante à des réunions avec les experts en la matière du client afin d'acquérir des exigences fonctionnelles.
Création de diagrammes de dispersion (Scatter Plots), de barres empilées (Stacked Bars), de boîtes et de moustaches (Whisker) à l'aide de références, de graphiques à puces (Bullet charts), de cartes thermiques, de cartes remplies et de cartes de symboles conformément aux spécifications des produits livrables.
Effectuer des calculs Tableau et appliquer des calculs complexes et composés à des ensembles de données volumineux et complexes.
Création de fonctions personnalisées de plage de dates, de fonctions d'heure, de fonctions de tableau et de fonctions de formatage conditionnel dans les rapports.
Programmation de l'actualisation des extraits pour les rapports hebdomadaires et mensuels.
Projet 2 : Détection des logos sur les panneaux publicitaires et les journaux
Missions et tâches:
end-to-end pipeline du scraping des données au déploiement en production.
Scraping de données (images, vidéos) à partir des médias sociaux.
Développer un pipeline pour le nettoyage des données (supprimer les images dupliquées).
Élaborer une nouvelle stratégie d’augmentation des données pour les problèmes de détection d’objets.
Former l'équipe d’étiquetage.
Entrainer des modèles pour la détection d’objets et la segmentation d’instance.
Déployer une API Flask pour consommer les modèles.
Projet 3 : Identification et recherche de spots publicitaires à l'aide d'empreintes audio.
Missions et tâches:
Mise en place d’une solution de reconnaissance audio: application sur les spots publicitaires; pour localiser des instances de publicités TV ou RD connues dans une archive d’émissions de télévision enregistrées (ou d’autres enregistrements plus longs comme le flux radio) à l’aide de l’empreinte audio basée sur Landmark.
Projet 4 : Détection du genre et du locuteur à partir de la parole (ASR).
Missions et tâches:
Concevoir un système de détection automatique du speaking et du genre pour la surveillance à grande échelle des flux audiovisuels bruts. Les estimations quantitatives du temps de parole des femmes aident à décrire l’évolution de l’égalité des sexes dans le temps, permettent aux chaînes de télévision et aux stations de radio de surveiller l’égalité des sexes dans leurs émissions.
Projet 2 : Exploitation des réseaux sociaux pour les sujets d’actualités au Maroc (Topic detection) + comprendre l’opinion d’une personne sur un sujet particulier (Sentiment Analysis).
Missions et tâches:
Scraping, nettoyage et prétraitement des données avec Python.
Analyser de grands ensembles de données hétérogènes (texte, données tabulaires, documents).
Extraire les données non structurées en temps réel. Une centaine d’articles qui proviennent de sources multiples, d'un comportement varié et de formats différents (textes, graphiques, tableaux) - Traitements Big Data.
Effectuer l’analyse des données, élaborer la conception de la base de données.
Développement et prototypage sur des Jupyter-Notebooks avec les packages AI/Data Science Python.
Entrainer le modèle d’apprentissage automatique pour la classification des sentiments et pour la détection de sujet d’actualité sur les énoncés en français (commentaires/publications).
Configuration et déploiements de kubernetesPods avec des config YAML.
Documentation/ Formation.
Projet 3 : Proposition d'une solution IT/BI pour un Système d'analyse des données commercial «OrderItem» d’un Site Web du courtier commercial.
Missions et tâches :
Mise en place d'un SI BI interne :
Spécifier les besoins et formaliser les règles de gestions.
Développement d'une API spécifique pour se connecter au Serveur REST
Consolider et Intégrer les données avec Talend
Mettre en place un DataWarehouse/DataMart :
Etudier, Concevoir et Modéliser un schéma multidimensionnel.
Conception et implémentation d’entrepôts de données et cubes avec Schema Workbench.
Développer avec Pentaho Server 9 des traitements d'extraction et d'alimentation DataMart/Datawarehouse.
Création de tableaux de bord et rapports avec PowerBI.
Documentation/ Formation.
Projet 4 : Dictionnaire multilingue
Missions et tâches :
MD est une alternative au dictionnaire alphabétique où la liste des mots est groupée selon leur signification et selon des hiérarchies structurelles familières.