Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Non, « Data Scientist » n’est pas le nouveau nom du Statisticien !


Rédigé par le 27 Septembre 2013

On entend malheureusement beaucoup de définitions erronées concernant le Big Data. La dernière en date est la définition d’un « Data Scientist ». Le jeudi 20 septembre 2013, lors de la conférence « Business Intelligence, Analytics & Big Data » organisée par l’analyste IDC (International Data Corporation), le conférencier d’un grand éditeur a osé affirmer que « Data Scientist » est le nouveau nom du Statisticien !



Abed AJRAOU, Directeur Business Intelligence et Big Data chez SRD Conseil et Professeur à CEFAM
Abed AJRAOU, Directeur Business Intelligence et Big Data chez SRD Conseil et Professeur à CEFAM
De même, lors de la conférence mondiale des statistiques qui a eu lieu à Montréal cet été 2013, les statisticiens de ce JSM 2013 (Joint Statistical Meetings) se sont empressés d’endosser le rôle de Data Scientist … un peu rapide comme raccourci, vous ne trouvez pas ?
Les statisticiens et les professionnels de la Business Intelligence doivent bien comprendre que le monde bouge autour d’eux. Penser que rien ne changera, c’est être comme Nokia, qui, leader à l’époque, n’a pas vu venir la révolution des smartphones.
Les grands analystes, IDC, Forrester & Gartner annoncent une grande pénurie de Data Scientist dans les années à venir, et dénoncent le manque de formations dédiées à cette discipline. Si les Data Scientistes n’étaient que de simples statisticiens, en quoi ces postes seraient-ils sous formés et pourquoi serions nous en pénurie ? Ces grands analystes seraient-ils dans l’erreur ? Je pense, pour ma part, que l’erreur vient d’ailleurs …

Définition du « Data Scientist »

Revenons à la définition d’un Data Scientist et essayons de comprendre en quoi ce rôle est différent de celui d’un statisticien classique.
Le métier de Data Scientist est né du concept de l’analyse des données dites Big Data. Ainsi, le Data Scientist doit répondre aux critères suivants :
• Bien maîtriser le ou les domaines business de son entreprise pour ainsi être support des entités métiers et apporter des réponses pertinentes aux questions posées.
• Savoir analyser aussi bien les données structurées que les non structurées d’entreprise ou extérieur à l’entreprise – c’est-à-dire savoir aussi traiter des données textes, images, son … Le texte mining, la sémantique et les concepts de « machine learning » sont indispensables.
• Maitriser les architectures de données distribuées, « parallélisées » et « multi-processées » où il évolue pour s’assurer que les données sont bien analysées, validées et nettoyées quasiment en temps réel et non plus en mode batch.
• Bien comprendre que cet environnement de travail permet de traiter un grand volume de données et comprendre ainsi que l’échantillonnage n’est plus nécessaire, voire même contre-productif.
• Bien appréhender la « pondération métier » des données, surtout lors de travaux sur la qualité des données. Dans le domaine de l’assurance par exemple, la date de naissance est une donnée majeure pour un contrat d’assurance santé, et totalement inopérante pour la déclaration d’un sinistre.
• Savoir résumer et faire parler les données en s’appuyant sur des visualisations de données pertinentes et en adéquation avec le public visé et du message à partager.
• Présenter les résultats de manière efficace afin de les faire comprendre de la plus simple des façons, c'est-à-dire pratiquer la pédagogie en interne, maitriser l’art du « storytelling ».

Mi Christophe Colomb - Mi Inspecteur Columbo

Pour ma part, j’adhère à la définition imagée de Monica Rogati de chez LinkedIn : « À mon avis, ils sont à moitié pirates, et à moitié analystes. Ils utilisent les données pour créer des produits et trouver des idées. C'est la rencontre de Christophe Colomb et de l’inspecteur Columbo : les yeux éclairés d’un explorateur et la perspicacité d’un détective ».
Ainsi, les algorithmes statistiques, essentiels dans la compréhension de facteurs de corrélation et de catégorisation ne représentent qu’une partie des compétences d’un Data Scientist. Ce dernier doit cependant aller bien au-delà du simple rôle d’un statisticien.




Commentaires
Du plus récent au plus ancien | Du plus ancien au plus récent

28.Posté par Leonardo Noleto le 13/04/2015 11:16
assez d'accord avec l'auteur qui combat cette idée que le data scientist ne serait qu'un statisticien relooké (ou comme certains disent, data scientist = un statisticien qui vit à San Francisco).
Par contre, sa définition ne couvre qu'un "type" de data scientist et dans le cas décrit celui plutôt proche de l'informaticien. Un bonne lecture pour comprendre les différentes facettes du métier du data scientist et par conséquent les différents types est "Analyzing the Analyzers: An Introspective Survey of Data Scientists and Their Work" (http://shop.oreilly.com/product/0636920029014.do).
On découvre d'ailleurs la définition du data scientist de type "T" :-)

27.Posté par Vallaud Thierry le 11/03/2015 22:45

26.Posté par Monsieur Histoire le 19/09/2014 16:30
Ahah, cette référence à Christophe Colomb comme d'un explorateur aux yeux "éclairés" semble un peu exagérée, quand on sait que le bonhomme était persuadé d'avoir atterri aux Indes et le cru jusqu'à la fin de sa vie, contre toute évidence. Magellan ou Amerigo Vespucci auraient été plus appropriés...

25.Posté par Philippe NIEUWBOURG le 21/01/2014 16:58
Bonjour Gina,

Vous avez raison, le terme de "Data Scientist" ne conviendrait pas à l'OQLF. Mais ce dernier ne semble pas s'être prononcé sur une traduction "officielle".
Bien entendu, l'expression "Scientifique des données" pourrait convenir, mais si un lecteur a une meilleure proposition qu'il n'hésite pas à la partager.

24.Posté par Gina Colombini le 21/01/2014 00:27
Bien compris votre défnition du rôle... Mais en français (nous sommes chatouilleux sur la langue au Québec), comment désigner cette fonction?

23.Posté par Aouaou Patricia le 30/10/2013 19:39
@ à tous,
Je n'amènerai pas à ce fil de discussion mes connaissances car trop peu structurées et mon DS interne me prépare sûrement un modèle mathématiques qui me permettra de classer tout cela pour que je puisse le réutiliser avec mes connaissances actuelles et passée: il y a sûrement du busy-ness à faire.

-Introduction aux questions qui seront posées:
Ce vrac de données rattaché à plein de source et que l'on appèle actuellement bigdata ... ce qui pourrait correspondre à une partie de notre petit cerveau lié à notre environnement, évènements... Avant l'intégration dans notre boiboite, nous avons "un processus" qui prépare et stock savemment ces données réutilisables (rêves vie sociale...) et il faut noter que là nous sommes partis de données non structurées vers un modèle réutilisable par plusieurs demandeurs...

Hé bien je ne vois pas ce travail de préparation (par rapport au business) en tant que brique dans le bigdata. Si cette brique existe elle se colle à la donnée (ou sa représentation) pour un traitement spécifique réservé à une petite partie du besoin métier. Mais peut-être que certains DS sont déjà à la tâche sur ce point pour faire un systeme global et autoapprennant.
Bien que le DS a la maitrise du modèle informationnel, il me semble le voir encore puisant dans ce fouilli de données, comment peut il être en proactif s'il n'a pas la connaissance de la mesure faite pour décrire ou produire la données? Comment lors d'intégration d'un nouveau modele de donnée le systeme s'autoalimentera pour intégrer ce nouveau modèle? Cete deuxième question est bien évidemment affectée à notre DS, là est pour moi le coeur de sa valeur. Je ne demande pas de réponse à ces deux questions mais si vous avez des référence bibli super pour moi.

Ce qui m'amène à mes questions (qui du fait de mon innexpérience ne sont sans doute pas claires mais me semble très importantes):
Quelleque soient les données structurées ou non, la mesure et le controle doivent ils faire partie de la données mises dans le big data? Quel en pourrait-être le modèle? Existe til une bibli à lire sur ce sujet?

NB: D'accord avec Abed sur sa vision du DS et merci à vous tous pour ce fil de discussion

22.Posté par Erick Atangana le 29/10/2013 23:36
@Thierry!
je souhaite que vous me relisiez, parce-que j'ai pas l'impression que vous ayez bien saisi mon propos : et oui, le poste de data scientist nécessite de la polyvalence, mais pas besoin d'être architecte, il n'est pas un peu statistcien, ni statisticien mutant, il est statisticien tout court...relisez-moi!

21.Posté par Thierry Vallaud le 29/10/2013 22:10
@Erick
Et en plus il a une solide connaissance métier, c'est un bon communiquant et un excellent chef de projet...
Tout cela dans la même personne....
Non il y a plusieurs profiles du data scientist et là celui que vous décrivez à la fois architecte et programmeur, un peu administeur de base de données aussi c'est le profile le plus "informaticien" du data scientist. En fait celui que vous décrivez c'est d'abord un informaticien...puis peut un statiscien (ou un statisticien mutant)
Mais il y a d'autres profiles du data scientist...., le statisticien, le data miner, l'analyste métier
Donc tout cela c'est du "naming" renommer d'un nom sexy et un peu fourtou d'anciens métiers

20.Posté par Erick Atangana le 29/10/2013 04:09
Abed a raison :
un statisticien n'est pas un data scientist loin de là! la différence fondamentale se situe au niveau de l'architecuture décisionnelle : un statisticien habituellement se situe au bout de la chaine décisionnelle, il reçoit les données structurées en aval sans que son evironnement de travail ne soit en relation directe avec l'architecture décisionnelle. Là, on parle de la BI classsique, tout le travail de collecte, de contrôle et d'alimentation des datamart et des bases de données est déjà réalisé en amont : le statisticien n'a plus qu'à interroger les bases de donées(dans la mesure du possible) et réaliser ses analyses puis restituer l'information...donc en gros dans le cas du statistcien, il existe un "mur virtuel" entre l'architecture décisionnel et son evironnement de travail...

Mais par contre, dans le cas du data scientist, ce mur est complètement inexistant : son environnement de travail est directement en relation avec l'architeture bi, je dirais même qu'il est totalement imbriqué dans l'architecture décisionnelle : il doit bien comprendre et maîtriser l'architecture du cluster hadoop par exemple, sinon je ne vois pas comment il pourrait lancer et contrôler des job map reduce, d'où compétence au moins sur un langage objet (python, java), et dans la moindre mesure script shell, en outre, il ya la question de la donnée non structurée dont j'ai l'impression que beaucoup ne mesurent pas l'ampleur et les problèmes que cela pose, à ceux-là, je demanderai de m'expliquer comment stocker un document pdf de 500 pages dans une base oracle? un fichier word dans une libraire SAS, ou un fichier audio/video sur teradata? oui quand on parle de données non structurées il n'y a pas seulement la question du traitement, mais surtout du stockage : les bases de données noSQL sont une réponse adéquate à ce problème de stockage, ce qui implique qu'un data scientist doit donc être capable de connecter un outil comme R à une base de données noSQL, de l'interroger, extraire la donnée et la traiter, tout en gérant la qualité de données, et la performance autour du cluster hadoop dont il a la charge... je ne connais pas un statisticien qui l'a déjà fait!

Pour finir le mot data scientist a un sens profond, on peut traduire simplement en "scientifique de la donnée", ce qui veut dire maitrise de toute la chaîne data, donc matrîse de toute la chaine décisionelle, à la fois sur la patie amont : qualité de données, intégration, gouvernance, contrôle; la partie intermédiaire : modélisation statistique économétrique, machine learning etc ; et la partie aval : restitution, visualisation, perspective businness... ce qui est une révolution par rapport à la bi classique où ces trois étapes étaient /sont séparées à la fois en terme de profil et d'environnemnt technique...

19.Posté par Vallaud Thierry le 22/10/2013 12:50
@ François bonjour, mais si les statisticiens sont des data scientists, tout comme certains informaticiens mais il y plusieurs profile dans le data scientist cf l'article sur l'étude quali que nous avons réalisé

1 2 3
Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store