Itinéraire de consultant : le Data Engineering
Quel est le quotidien de nos consultantes et consultants en projet ? Quels sont les challenges techniques à relever et quelles solutions sont apportées ? Derrière une mise en production réussie, un déploiement ou un Proof of Concept, il y a des consultantes et des consultants, une équipe, des technologies et beaucoup d’expertise et d’intelligence collective ! Cette série d’articles vise à vous dévoiler l’envers du décor, à travers leur témoignage.
Habib a découvert le Cloud lors d’une mission de Data Engineering. Il travaillait alors sur des problématiques d’ingestion et de mise à disposition des données, en collaboration avec un DevOps . Cela lui a donner envie de continuer son exploration du Cloud : pour Habib, le Cloud est le terrain de jeu qui permet d’exploiter au mieux les données sans se soucier des contraintes liées aux machines et à l’infrastructure. Il a alors choisi D2SI pour poursuivre son voyage dans le Cloud.
Pourquoi as-tu choisi de rejoindre D2SI ?
J’ai été séduit par la vision du conseil portée par D2SI, qui est très différente de ce que j’avais pu voir sur le marché. Il y a une vraie écoute du consultant et de ses aspirations. J’ai aussi été attiré par le focus sur le partage des connaissances au sein de l’entreprise, et la possibilité de mener des missions de Data Engineering dans l’environnement Cloud. Mon objectif était de pouvoir consolider mes acquis sur les métiers de la donnée (Data engineering, data science et data ops) en travaillant sur le Cloud, donc la proposition de D2SI collait bien à mes envies d’évolution.
Peux-tu présenter ton parcours dans la donnée ?
Je travaille dans le domaine de la data depuis trois ans. J’ai fait des études de mathématiques/physique et d’informatique, et la data est un sujet qui me permet de concilier ces différentes disciplines.
J’ai commencé à travailler sur un sujet de prévision et d’optimisation à partir des données météo dans le cadre d’un stage au CEA et cela m’a tout de suite passionné. J’ai compris qu’on pouvait tirer de la valeur de la donnée, et je me suis épanoui en mettant à profit mes acquis pour répondre à des besoins métier. Ce qui est intéressant avec les métiers de la data, c’est qu’on ne se limite pas à un secteur. Banque, communication, énergie… aujourd’hui la donnée est un driver dans tous les secteurs d’activité.
Peux-tu présenter le projet sur lequel tu travailles actuellement ?
Je travaille pour une entreprise dans le secteur du luxe, qui souhaite piloter tous ses métiers (supply chain, marketing, recommandation, fidélisation de clients) à travers la donnée, et ainsi améliorer son business. Extraire de la valeur de la donnée est donc un enjeu majeur, et notre équipe travaille exclusivement sur des projets de data science et de machine learning. Notre premier objectif est d’accompagner les data scientists dans la mise à disposition de données en assurant la meilleure qualité possible, et de diriger les données en fonction des différents traitements à appliquer. Nous devons veiller à ingérer la bonne donnée pour la bonne tâche. Notre second objectif est la mise en production des modèles de machine learning, c’est la partie Devops.
Sur quelles technologies travailles-tu ?
Toute la plateforme Data est sur le Cloud AWS. Nous utilisons principalement Athena, Glue, S3. Nous avons aussi d’autres stacks plus généralistes comme Spark, Airflow et Elasticsearch. Côté langages, je travaille le plus souvent sur Python. En fonction des besoins, je suis un peu développeur, un peu data scientist, un peu data analyst.
Comment vois-tu le métier du Data Engineer ?
Pour toute entreprise qui veut être data driven, le Data Engineer a un rôle important à jouer. Son rôle est de répondre aux besoins logiciels au moment de la création des pipelines de données et au moment de la mise en production. Cela demande d’être à jour sur les technologies les plus adaptées aux besoins, et d’avoir des compétences complémentaires, comme par exemple de connaître les outils des data scientists, de façon à pouvoir couvrir un périmètre plus large.
Le machine learning est-il un sujet nouveau pour toi ?
J’ai découvert le machine learning lors d’une mission de deux ans au sein d’une administration. Il s’agissait d’un projet de data science sur la gestion des risques, dont l’objectif était de pouvoir prédire des risques de défaut de paiement. C’est ensuite que je me suis orienté vers la data science, puis vers le Cloud et la Data engineering. Comme j’ai un profil hybride, je m’intéresse toujours au machine learning qui est pour moi un domaine phare. J’ai d’ailleurs obtenu récemment la certification AWS Machine Learning.
Quels types de challenges dois-tu résoudre au quotidien ?
La principale difficulté dans ce métier est d’assurer la qualité de données en provenance de différentes sources, qui arrivent sous différentes formes, et dont certaines ne sont pas “propres”. Pour pouvoir retirer de la valeur de la donnée, on doit avoir le “source of truth”. Assurer la qualité des données que nous fournissons aux data scientists signifie de vérifier qu’elle n’a pas été corrompue, qu’aucune donnée n’a été perdue lors du passage d’un système à un autre, et qu’il n’y a pas eu de mauvais typage. Notre travail est de consolider les données.
Comment as-tu progressé depuis le début de ce projet ?
Quand je suis arrivé, nous étions sur une première version de la plateforme. Puis nous sommes passés à une version utilisant des services AWS plus adaptés à la Data Engineering. Aujourd’hui, cette version est bien avancée, elle est stable. Nous sommes dans une phase où nous consolidons tout le travail fait depuis quelques mois. J’ai le sentiment d’avoir franchi un cap et d’avoir progressé durant cette période où j’ai pu mettre les mains dans la machine et développer des fonctionnalités.
Ce projet répond-il à tes attentes ?
Oui, j’ai le rôle de lead sur la partie ingestion et gestion de la qualité de la donnée, et nous allons bientôt lancer une mise en production. C’est un sujet qui m’intéresse particulièrement, une expérience de mise en production de modèle de machine learning sur le cloud va me permettre de comprendre beaucoup de choses. J’ai déjà l’expérience de mise en production de modèles ML sur des infrastructures on premise, je veux découvrir comment ça se passe sur le Cloud. Cela me permettra aussi de monter en compétence sur les domaines liés au DevOps. Ce n’est pas exactement dans le cadre de mon scope, mais il est important de comprendre les enjeux.
Comment travailles-tu avec les autres membres de l’équipe D2SI sur ce projet ?
Nous sommes trois dans l’équipe D2SI, et je travaille en étroite collaboration avec Mohamed sur la partie DevOps/Infrastructure. Nous échangeons quotidiennement, et nous nous enrichissons sur nos domaines respectifs : j’apprends sur l’infrastructure, et il apprend sur la data. Je travaille aussi avec Christophe, qui est sur la partie monitoring. C’est particulièrement important pour la mise en production. Lors de la phase d’ingestion, je fais remonter certaines métriques utiles à Christophe, donc nous nous voyons régulièrement pour faire le point sur les besoins du monitoring.
Comment vois-tu l’évolution de ton métier ?
Personnellement, je veux être à même d’intervenir de bout en bout sur un projet, de maîtriser tous les flux sur l’ensemble du pipeline, de la data engineering à la mise en production, en passant par la data science. Cela suppose de continuer à faire de la veille car les technologies évoluent vite, il faut rester à jour pour voir ce qui peut être intégré dans nos projets en cours.
Qu’est-ce que tu apprécies chez D2SI ?
J’apprécie la place qui est donnée au consultant dans l’entreprise, et le fait que nous soyons tous au même niveau, quel que soit le degré de séniorité. Il n’y a pas de hiérarchie ou de distinction. Je me retrouve également dans l’approche autour du partage de connaissances, et la mise à disposition de ressources pour pouvoir monter en compétence et passer des certifications, c’est un système très flexible. Je participe aussi à la communauté Machine Learning, c’est un groupe qui permet à chacun de monter en compétence et de découvrir d’autres contextes clients. Nous partageons nos expériences sur des sujets complémentaires et c’est vraiment enrichissant.