Le data engineering, complément indispensable de la data science


Rédigé par Jean-Baptiste Paccoud, Neoxia le 16 Avril 2018

Exploiter les données c'est bien, mais exploiter des données pertinentes et de qualité c'est mieux. Pour extraire toute la richesse de leurs données, les entreprises ont besoin de profils nouveaux qui combinent des compétences techniques bien spécifiques et une réelle compréhension business : les data engineers.



Jean-Baptiste Paccoud, Directeur Digital Factory, Neoxia
Les données sont parmi les actifs les plus précieux des entreprises, notamment pour relever les défis de la fameuse "transformation numérique". Une étude Clik / CXP* montre en effet que la quasi-totalité des entreprises qui ont engagé un ou plusieurs grands projets de transformation numérique placent la donnée au cœur de leur projet. La prise de conscience est réelle et est de surcroît favorisée par la montée des clouds publics. Les plus grandes entreprises mettent en place des stratégies Datas et recrutent des experts, les Data Scientists, disposant de compétences algorithmiques et statistiques pointue et capables de faire parler les données.

Savoir les exploiter et les valoriser donne en effet un avantage concurrentiel indéniable pour se démarquer sur son marché. Mais encore faut-il s'assurer que les données exploitées sont fiables, robustes, sécurisées, mais aussi que ce sont les bonnes données qui ont été remontées et qu'elles sont complètes et à jour, ceci dans un contexte où les volumes explosent et les formats sont très hétérogènes.

Analyser, oui, mais des données pertinentes et de qualité !
Après avoir étoffé leurs équipes de data scientists, les entreprises vont devoir faire appel aux compétences des data engineers. Leur mission : assurer en amont la qualité et l'exploitabilité des données.

Pour cela, un data engineer décrypte les processus métier, identifie les données pertinentes à remonter, puis définit le traitement dont les données doivent faire l'objet pour être exploitables. Il suit ensuite le travail sur les données, qui consiste notamment à
- collecter, nettoyer, homogénéiser et centraliser les données dans des datalakes ;
- réconcilier les sources et formats de données ;
- établir des corrélations intéressantes entre certaines données ;
- veiller à l'interopérabilité des systèmes par lesquels transitent ces données, qu'ils soient internes ou externes, dans le cloud ou on-premise ;
- garantir des remontées de données en temps réel depuis les systèmes back-end vers les applications métier ;
- assurer l'application de règles de gouvernance de l'information, le respect de la réglementation, notamment en matière de sécurité des données. A ce titre, il jouera un rôle clé au niveau de la sécurisation des données ainsi que du droit à l'oubli (dans le cadre du RGPD).

En résumé, son rôle est d'assurer la robustesse, la fiabilité et l'homogénéité des données afin que les data scientists puissent les exploiter facilement. Ce sont donc deux métiers complémentaires.

La montée en puissance des data engineers
Bien qu'encore méconnu encore en France, le data engineer est en train de s'imposer comme un maillon essentiel de la chaîne d'exploitation et de valorisation des données. Sa spécificité est sa pluridisciplinarité ; sa force est sa capacité à traduire en termes de systèmes IT les besoins des utilisateurs métier et fonctionnels.

Le data engineer conjugue en effet des compétences techniques et logicielles avec des compétences business et une compréhension fine des processus métier. Il est ainsi à la fois expert en architecture Cloud, en technologies d'analytics et de traitement des données, en bases de données ; il maîtrise le développement logiciel, le DevOps et a la capacité de décrypter et d'intervenir sur le code ; il sait comment utiliser les API et les architectures de systèmes IT tout en étant aguerri aux spécificités de chaque métier dans l'entreprise.

Un choix gagnant pour l'avenir
Les entreprises américaines ont commencé à étoffer leurs équipes de data engineers aux côtés des actuels data scientists. C'est notamment le cas chez la plupart des acteurs de la Silicon Valley. En France, quelques grandes entreprises en ont aussi déjà recrutés. Des ESN se mettent en quête de ces profils pour répondre à une demande émergente des grands groupes mais aussi de PME et ETI sur des besoins plus ponctuels. Au total, plus de 1000 postes de data engineers sont actuellement ouverts sur LinkedIn.

Malgré tout, ce métier reste méconnu - contrairement au métier de data scientist qui accapare beaucoup de lumière dans les médias. Le data engineer est un métier de l'ombre qui devrait vite en sortir, à minima auprès des sociétés qui souhaitent réellement exploiter tout le potentiel de leurs données.

* https://comarketing-news.fr/la-data-au-coeur-de-la-transformation-digitale-des-entreprises/

A propos de l'auteur

Après un passage dans le monde du conseil sur la thématique de la conduite du changement (chez Accenture puis au sein de la direction conseil interne d'AXA), Jean-Baptiste Paccoud a rejoint LN Square où il a mis à profit ses expertises autour de la mobilité et de l'expérience utilisateur auprès de sociétés comme BMW, BNP Paribas ou encore Veolia.
Il rejoint Neoxia en octobre 2012 en tant qu'associé. Il anime et coordonne plus d'une cinquantaine de talents (UX/UI designers, Lead dev, ScrumMaster, Développeurs front/back/fullstack, Data engineer, Développeurs iOS ou Android, etc.) qui composent la Digital Factory pour produire avec eux les projets numériques des clients.



Dans la même rubrique :