Spark streaming pour le parsing des fichiers gzip et stockage data lake
● Batch processing des fichiers csv,avro .. enrichissement et stockage data lake
● Développement des services rest avec spring boot
● Interface graphique pour la restitution
● Continous delivery (git, jenkins, ansible .. )
Java8, Solr 5.2.1, HDP2.6.2 (Spark 2, HBase 1.1.2),Apache
Tika,Tesseract(OCR) ,Sqoop2,
Oozie, Spring Boot
HDP-2.6.2 ( Spark, Kafka,
HBase, Hadoop),Avro 1.7.7,
Parquet 1.8.1, Akka
2.5.4,Apache Kamel 2.19, Kryo
2.4, Java 8, Scala 2,
Elasticsearch 5.4.3 , Kibana
Gitlab, Jenkins, Nexus, Maven,
Grafana, Graphite, JMXTrans
Spring Boot, Spring
security, React Js, git, ansible,
Jenkins,Elasticsearch, machine
learning
Conception et développement d’un outil de visualisation pour le client Materne et SEB
● Extraction et traitement des données de différentes sources (Facebook , Forum et base de données )
● Indexation des données avec l’API Java d’Elasticsearch.
● Mise en place d’un nouveau serveur externe et automatisation de la chaîne (Extraction, Annotation,
Indexation) avec des scripts linux, crontab, incrontab , procédure de sauvegarde.
● Dashbords Kibana et Zoomdata.
Conception et développement des représentations visuelles de connaissances sémantiques
Graphe dynamique et interactif pour naviguer au sein d’un réseau sémantique.
Installation et configuration des serveurs linux
● Installation des serveurs pour des besoins internes ou externes en mode SAAS.
● Documentation technique interne dans le wiki.
● Scripts batch de monitoring, sauvegarde et automatisation.
Intégration des flux de différentes sources de données (fichiers, base de données, mails …) dans le dataLake en mode batch.
● Spark processing pour le parsing des documents avec Tika, l’indexation Solr et stockage HBase.
● Exposition des services Rest
● Interface graphique pour la recherche Solr.
Projet à forfait - Refonte du système du contrôle du marché financier – Autorité du marché financier – 1 an
● Mise en place du processus du continuous delivery : Installation Gitlab, Configuration Jenkins et Nexus.
● Mise en place du processus du monitoring pour kafka : Grafana, Graphite, JMXTrans
● Etude, Conception et développement de différentes solutions pour l’extraction et traitement de différents flux financiers : ( euronext, firds, trem, rdt, fsma .. )
Acquisition des fichiers xml en temps réel et application de différents contrôles qualités (contrôle nommage, vérification XSD, contrôle Submiting Entity, contrôle séquence, contrôle unicité..)
Intégration des flux en format parquet dans le datalake.
Spark processing de différents flux financiers (règles du contrôle qualité des transactions, routage des transactions, enrichissement du référentiel métier …)
Réalisation d’un POC sur amazon AWS ( EC2, EMR, Redshift ..)