Logstash est une solution libre qui permet de récupérer des données provenant d'un grand nombre de sources, de les transformer et de les envoyer vers une solution de stockage.
La solution de stockage du même éditeur est Elasticsearch.
Réalisations :
Collecte de données depuis Kafka avec Spark Streaming
Optimisation des temps de traitement Spark Streaming et hive
Conception et création de vues exploratoires et métiers sur les données
Industrialisation et automatisation de la chaîne de collecte de bout en bout
Synchronisation inter-traitements
Mise en place du monitoring et de l’alerting des traitements
Optimisation de la robustesse des traitements
Qualification et traitement des anomalies
Alimentation temps réel d’une base mongo DB avec nifi
Réalisations :
Audit des scripts Pig et améliorer leur performance
Conception et réalisation d’un prototype Spark sur l’alimentation des tables de fait et de dimension
Mise en œuvre du prototype en mode production
Traitement des données Hive avec Spark-sql
Développement de requêtes SQL
Réalisations :
Développement de règles métier sur une base de données orientée colonne (vertica)
Conception et création de la table de fait
Développement de requêtes SQL
Projet Centralisation, indexation et stockage des Logs sur un cluster ElasticSearch.
Réalisations :
Etude et conception d’architecture de bout en bout.
Rédaction des spécifications fonctionnelles
Collecte en quasi temps réel avec logstash shipper
Centralisation et gestion de flux avec KAFKA (Broker redondant)
Indexation avec logstash Indexer et stockage sur elasticsearch (réplication sur plusieurs nœuds)
Tolérance aux pannes et gestion de charge (Load Balancing).
Réalisations :
Collecte d’information sur un système de badge
Recommandation sur les horaires d’arrivée, départ et pause déjeuner
Développement de packages Microsoft SSIS
Rédaction de la documentation technique
Projet
Traitement des données géospatiales avec des données d’une cartographie dans un environnement Hadoop afin d’enrichir les données
Réalisations :
Traitement massif des données géospatiales dans environnement Hadoop Hortonworks
Calcul de trajets de boitiers GPS sur un historique de deux ans (36 milliards de coordonnées)
Optimisation de la plateforme Hadoop afin de d’obtenir les meilleures performances sur le cluster
Projet Analyse en temps réel du fonctionnement des équipements
Réalisations :
Etude et conception d’architecture de bout en bout.
Collecte en quasi temps réel avec logstash
Développement de scripts de parsing des logs
Création et administration d’un cluster elasticsearch sur 3 machines
Suivi en temps réel (kibana)
Rédaction des spécifications fonctionnelles et techniques
Réalisations :
Preuves de Concept Métier (PoC)
Proposition d'une solution permettant de gérer la charge et réduire le temps de latence et de traitement.
Conception d'une architecture distribuée permettant la connectivité et l'interopérabilité de plusieurs produits (IBM Streams Server et studio, Websphere MQ, SPSS et BigInsights)
Preuve de concept technique (PoT)
Installation, administration et test de plateforme Hadoop sur un cluster de 5 machines OVH (IBM BigInsights)
Développement de modèles de Machine Learning sous SPSS
Intégration et interconnexion de briques applicatives sous plateforme Hadoop
Stockage de données dans HDFS.
Projet : Participation au développement du système décisionnel
Réalisations :
Améliorer l’existant (Amélioration des performances du DWH)
Extraction des données Excel via des cubes OLAP
Construire de nouveaux indicateurs (nouveau schéma)
Développement des jobs d’alimentation et des rapports
Définition des indicateurs pour les tableaux de bords
Documentation des rapports et les règles de gestion
Rédaction des spécifications techniques et des documents fonctionnels (cahiers des charges)
Projet : Collaboration avec l’équipe R&D afin de tester les solutions Hadoop
Réalisations:
Installation administration et test de plateformes Hadoop (Hortonworks, Cloudera et Mapr)
Tests et connexion des différentes briques proposées par ces solutions
Installation et configuration de Kerberos
Migration d’un entrepôt de données de Microsoft SQL Server vers Hadoop/Hive (Sqoop)
Indexation automatique d’une base textuelle avec elasticsearch et visualisation dans kibana
Rédaction des rapports d’activités sur les technologies testés