Non, « Data Scientist » n’est pas le nouveau nom du Statisticien !


Rédigé par le 27 Septembre 2013

On entend malheureusement beaucoup de définitions erronées concernant le Big Data. La dernière en date est la définition d’un « Data Scientist ». Le jeudi 20 septembre 2013, lors de la conférence « Business Intelligence, Analytics & Big Data » organisée par l’analyste IDC (International Data Corporation), le conférencier d’un grand éditeur a osé affirmer que « Data Scientist » est le nouveau nom du Statisticien !



Abed AJRAOU, Directeur Business Intelligence et Big Data chez SRD Conseil et Professeur à CEFAM
De même, lors de la conférence mondiale des statistiques qui a eu lieu à Montréal cet été 2013, les statisticiens de ce JSM 2013 (Joint Statistical Meetings) se sont empressés d’endosser le rôle de Data Scientist … un peu rapide comme raccourci, vous ne trouvez pas ?
Les statisticiens et les professionnels de la Business Intelligence doivent bien comprendre que le monde bouge autour d’eux. Penser que rien ne changera, c’est être comme Nokia, qui, leader à l’époque, n’a pas vu venir la révolution des smartphones.
Les grands analystes, IDC, Forrester & Gartner annoncent une grande pénurie de Data Scientist dans les années à venir, et dénoncent le manque de formations dédiées à cette discipline. Si les Data Scientistes n’étaient que de simples statisticiens, en quoi ces postes seraient-ils sous formés et pourquoi serions nous en pénurie ? Ces grands analystes seraient-ils dans l’erreur ? Je pense, pour ma part, que l’erreur vient d’ailleurs …

Définition du « Data Scientist »

Revenons à la définition d’un Data Scientist et essayons de comprendre en quoi ce rôle est différent de celui d’un statisticien classique.
Le métier de Data Scientist est né du concept de l’analyse des données dites Big Data. Ainsi, le Data Scientist doit répondre aux critères suivants :
• Bien maîtriser le ou les domaines business de son entreprise pour ainsi être support des entités métiers et apporter des réponses pertinentes aux questions posées.
• Savoir analyser aussi bien les données structurées que les non structurées d’entreprise ou extérieur à l’entreprise – c’est-à-dire savoir aussi traiter des données textes, images, son … Le texte mining, la sémantique et les concepts de « machine learning » sont indispensables.
• Maitriser les architectures de données distribuées, « parallélisées » et « multi-processées » où il évolue pour s’assurer que les données sont bien analysées, validées et nettoyées quasiment en temps réel et non plus en mode batch.
• Bien comprendre que cet environnement de travail permet de traiter un grand volume de données et comprendre ainsi que l’échantillonnage n’est plus nécessaire, voire même contre-productif.
• Bien appréhender la « pondération métier » des données, surtout lors de travaux sur la qualité des données. Dans le domaine de l’assurance par exemple, la date de naissance est une donnée majeure pour un contrat d’assurance santé, et totalement inopérante pour la déclaration d’un sinistre.
• Savoir résumer et faire parler les données en s’appuyant sur des visualisations de données pertinentes et en adéquation avec le public visé et du message à partager.
• Présenter les résultats de manière efficace afin de les faire comprendre de la plus simple des façons, c'est-à-dire pratiquer la pédagogie en interne, maitriser l’art du « storytelling ».

Mi Christophe Colomb - Mi Inspecteur Columbo

Pour ma part, j’adhère à la définition imagée de Monica Rogati de chez LinkedIn : « À mon avis, ils sont à moitié pirates, et à moitié analystes. Ils utilisent les données pour créer des produits et trouver des idées. C'est la rencontre de Christophe Colomb et de l’inspecteur Columbo : les yeux éclairés d’un explorateur et la perspicacité d’un détective ».
Ainsi, les algorithmes statistiques, essentiels dans la compréhension de facteurs de corrélation et de catégorisation ne représentent qu’une partie des compétences d’un Data Scientist. Ce dernier doit cependant aller bien au-delà du simple rôle d’un statisticien.



Dans la même rubrique :