Accédez au profil complet de Gilchrist T.
Créez un compte en 2 minutes et accédez au profil complet de nos 326 420 prestataires.
En tant que data engineer, je suis spécialisé dans la mise en place de systèmes de traitement, d'analyse et de visualisation de données.
Je travaille à la fois sur du big data et du small data.
Mes principales compétences sont :
-Python
-Dash(interface de visualisation de données)
-Spark(traitement de données big data)
-Hadoop(Stockage de données big data)
-Postgre, SQL Server, SQL
-HTML+CSS
-Git
-Airflow (automatisation de taches)
● Développement d’interfaces de data visualisation DASH (python) pour le suivi des initiatives
de transformation de l’entité GAM
● Adaptation de données pour l'intégration dans un dashboard de suivi d’obsolescence
(Python/Spark/Zeppelin Notebook)
● Ordonnance de jobs Python et Spark via Airflow
● Mise en place d’une interface Call-to-Action pour la mise à jour du statut des éléments de
l’infrastructure (Flask, Sql Server)
● Introduction des métiers aux outils d’analyse de données(Pandas, Jupyter notebook, Plotly…)
Environnement : Hadoop Hortonworks, Pyspark 2/Zeppelin , Hive, Python /Dash/Flask/Pandas, Git , SQL
Mission : Sous la responsabilité du C.D.O, chargé de l’intégration de données dans le Data Lake pour AXA Partners et
développeur sur un projet de data gouvernance. Également formateur et support sur les outils du data lake à destination des
analystes.
● Participation aux ateliers d’intégration de nouvelles sources de données (intervenants à
l’international).
● Refonte de scripts SQL Server pour la compatibilité avec Hive et Impala
● Développement de scripts Python pour l’automatisation du traitement de métadonnées (provenant
de fichiers Excel)
● Jointure de multiples sources de données et mise à disposition de datamart pour les analystes et
data scientist (SparkSQL)
● Développements dans le cadre de la mise en place d’un datawarehouse pour un projet de data quality
(Spark, Scala, Hive)
● Gestion d’incidents (intégrité de données, rattrapage de données)
● Développement d’outils de monitoring du stockage de données sur hdfs en Shell et Python
Environnement : Hadoop Cloudera, Hive, Impala, Spark, Python , Scala , Spotfire , Orchestra EBX, Git
Mission : Sous la responsabilité d’un chef de projet Data, chargé de la mise en place de l’infrastructure pour un pilote
d’analyse de données de véhicules connectés .
● Participation aux ateliers de modélisation des données et proposition d’un modèle de
données (MCD, MPD) répondant aux besoins d’analyse
● Récupération automatisée de données open source (météo, cartographie) pour croisement
avec données internes (Python + PostGIS + QGIS+ PostgreSQL)
● Mise en place de la brique d’analyse de données
● Calcul des indicateurs et création des premiers rapports sur Qlikview (Véhicules par zone, Durée des
déplacements)
Environnement : StarUML , Postgre, Python, Qlikview , PostGIS,QGIS
Au sein d’une équipe de développeurs, chargé de la mise en place d’un pipeline de traitement de données et du calcul
d’indicateurs.
● Passage de la certification Spark (MapR)
● Agrégation de données avec Spark(Python), R et Apache Drill
● Ingestion des données dans MongoDB et configuration de la réplication
● Mise en place d’un ordonnanceur pour le suivi des taches du pipeline (Airflow)
● Mise en place d’un serveur applicatif Linux (RedHat 6.8)
Environnement : PySpark , R, Drill, Airflow
Statistiques
depuis la création du compte
Votre navigateur Web n’est plus à jour. Il ne permet pas d’afficher correctement le site Codeur.com.
Nous vous invitons à mettre à jour votre navigateur ou à utiliser un autre navigateur plus récent.