Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Non, « Data Scientist » n’est pas le nouveau nom du Statisticien !


Rédigé par le 27 Septembre 2013

On entend malheureusement beaucoup de définitions erronées concernant le Big Data. La dernière en date est la définition d’un « Data Scientist ». Le jeudi 20 septembre 2013, lors de la conférence « Business Intelligence, Analytics & Big Data » organisée par l’analyste IDC (International Data Corporation), le conférencier d’un grand éditeur a osé affirmer que « Data Scientist » est le nouveau nom du Statisticien !



Abed AJRAOU, Directeur Business Intelligence et Big Data chez SRD Conseil et Professeur à CEFAM
Abed AJRAOU, Directeur Business Intelligence et Big Data chez SRD Conseil et Professeur à CEFAM
De même, lors de la conférence mondiale des statistiques qui a eu lieu à Montréal cet été 2013, les statisticiens de ce JSM 2013 (Joint Statistical Meetings) se sont empressés d’endosser le rôle de Data Scientist … un peu rapide comme raccourci, vous ne trouvez pas ?
Les statisticiens et les professionnels de la Business Intelligence doivent bien comprendre que le monde bouge autour d’eux. Penser que rien ne changera, c’est être comme Nokia, qui, leader à l’époque, n’a pas vu venir la révolution des smartphones.
Les grands analystes, IDC, Forrester & Gartner annoncent une grande pénurie de Data Scientist dans les années à venir, et dénoncent le manque de formations dédiées à cette discipline. Si les Data Scientistes n’étaient que de simples statisticiens, en quoi ces postes seraient-ils sous formés et pourquoi serions nous en pénurie ? Ces grands analystes seraient-ils dans l’erreur ? Je pense, pour ma part, que l’erreur vient d’ailleurs …

Définition du « Data Scientist »

Revenons à la définition d’un Data Scientist et essayons de comprendre en quoi ce rôle est différent de celui d’un statisticien classique.
Le métier de Data Scientist est né du concept de l’analyse des données dites Big Data. Ainsi, le Data Scientist doit répondre aux critères suivants :
• Bien maîtriser le ou les domaines business de son entreprise pour ainsi être support des entités métiers et apporter des réponses pertinentes aux questions posées.
• Savoir analyser aussi bien les données structurées que les non structurées d’entreprise ou extérieur à l’entreprise – c’est-à-dire savoir aussi traiter des données textes, images, son … Le texte mining, la sémantique et les concepts de « machine learning » sont indispensables.
• Maitriser les architectures de données distribuées, « parallélisées » et « multi-processées » où il évolue pour s’assurer que les données sont bien analysées, validées et nettoyées quasiment en temps réel et non plus en mode batch.
• Bien comprendre que cet environnement de travail permet de traiter un grand volume de données et comprendre ainsi que l’échantillonnage n’est plus nécessaire, voire même contre-productif.
• Bien appréhender la « pondération métier » des données, surtout lors de travaux sur la qualité des données. Dans le domaine de l’assurance par exemple, la date de naissance est une donnée majeure pour un contrat d’assurance santé, et totalement inopérante pour la déclaration d’un sinistre.
• Savoir résumer et faire parler les données en s’appuyant sur des visualisations de données pertinentes et en adéquation avec le public visé et du message à partager.
• Présenter les résultats de manière efficace afin de les faire comprendre de la plus simple des façons, c'est-à-dire pratiquer la pédagogie en interne, maitriser l’art du « storytelling ».

Mi Christophe Colomb - Mi Inspecteur Columbo

Pour ma part, j’adhère à la définition imagée de Monica Rogati de chez LinkedIn : « À mon avis, ils sont à moitié pirates, et à moitié analystes. Ils utilisent les données pour créer des produits et trouver des idées. C'est la rencontre de Christophe Colomb et de l’inspecteur Columbo : les yeux éclairés d’un explorateur et la perspicacité d’un détective ».
Ainsi, les algorithmes statistiques, essentiels dans la compréhension de facteurs de corrélation et de catégorisation ne représentent qu’une partie des compétences d’un Data Scientist. Ce dernier doit cependant aller bien au-delà du simple rôle d’un statisticien.




Commentaires
Du plus récent au plus ancien | Du plus ancien au plus récent

18.Posté par François LE CORRE le 20/10/2013 19:48
Bonjour,

Je suis tout à fait en phase avec vous, et vous avez raison de souligner ces différences.

Je partage les compétences nécessaires : maîtrise des domaines business, capacité à analyser des données de toute nature, maîtrise sémantique et machine learning, architectures distribuées, gestion de gros volumes de données, savoir faire parler les data pour son public cible.

Néanmoins, il me semble important de mentionner par ailleurs que le "statisticien classique" d'aujourd'hui possède déjà la majorité de ces savoir-faire, du moins ceux dignes de ce nom : de la compréhension des enjeux business à la restitution orienté "bénéfice client", en passant par le choix et l'orchestration des bonnes méthodologies analytiques et la capacité de traiter de très gros volumes de données sans passer par l’échantillonnage. Il lui manque finalement 2 choses : la maîtrise des machines learning et celle des architectures distribuées, qui sont loin d’être des sujets anodins, je vous le concède. Enfin, dès lors que les « statisticiens classiques » sont à la fois sensibles à l’IT et ont envie d’explorer le champ de l’intelligence artificielle, ne sont-ce pas déjà des « quasi-data scientists » ?

17.Posté par Vallaud Thierry le 16/10/2013 00:22
@Abed
Cette remarque "la lecture ne doit pas la qualité première de nos statisticiens nationaux" n'est pas très gentile......
Il m'arrive donc parfois de lire des choses de temps en temps et je conseil à tous pour mettre tout le monde d'accord de lire ce petit livre http://www.amazon.fr/gp/product/1449371760/ref=oh_details_o00_s00_i00?ie=UTF8&psc=1 Analyzing the Analyzers: An Introspective Survey of Data Scientists and Their Work à 7€39

16.Posté par Abed Ajraou le 15/10/2013 20:42
La lecture ne doit pas être la qualité première de nos statisticiens nationaux.
Pour répondre à la question Statisticien + DataViz =? Data Scientist, non, il manque encore les autres compétences citées dans l'article ... il suffit de lire et/ou de faire un peu de veille.

15.Posté par Elmernikh Nabil le 15/10/2013 17:56
@Abed
Quel est le rôle exact du data scientist ?
Doit il uniquement analyser les données et essayer de leur donner du sens.
Si c'est le cas, un bon statisticien ayant un bagage en data visualisation devrait être capable d'assumer ce rôle. Si on veut faire du data scientist un "mouton à 5 pattes" devant maîtriser les "architectures distribuées, parallélisées..." j'ai bien peur que ce profil soit très difficile à trouver.
Cdt,

14.Posté par Abed Ajraou le 14/10/2013 14:12
@Thierry,
Belle pirouette. Au départ, le livre de Pyle devait être le livre de référence en matière des données non-structurées, et maintenant il s'agit du livre de référence des données structurées.
Maintenant, travailler sur des SGBD ou des bases OLAP pour traiter cela montre, qu'en partie, le gap à franchir pour un statisticien à devenir Data Scientist.

13.Posté par Vallaud Thierry le 14/10/2013 13:48
@Abded
Je citais le livre de Pyle car il est un peu la référence en matière de préparation de données "structurées"
En fait ce qui me chiffonne c'est que quand la données est "non structurée" je passe un temps important du projet à la structurer pour la rendre exploitable. Donc à la fin de cette phase de traitement qui peut être "en temps réel" quoi qu'il arrive la données non strucurée au départ devient structurée. Je n'ai pas de cas pour l'instant ou je la laisserai dans son état non structurée de la données pour de la modélisation. Du reste est ce que certain lecteur la laisse dans cet état là ? Et vous Abded ?
Je travaille beaucoup sur le log, mais là je structure à chaque fois ou sur les données textuelles mais la première partie est de structurer le corpus des concepts receuillis pour ensuite le structurer automatiquement.
Je ne laisse pas la données dans son état initial non structuré dans ce que je fais pour l'instant même sur des corpus textuels très important. Dans des modèles de RTB à la mode en ce moment par exemple, la phase de classification des verbatims est la principale tache initiale, une tache de structuration donc.
J'utilise différents outils sur les données textuels : STAS, Modeler d'IBM, des outils plus analyse du sens mais plus universitaire, Iramuteq parfois
Une référence sur la préparaiton plus sur de la données non structurée textuelle http://www.amazon.fr/Text-Mining-Handbook-Approaches-Unstructured/dp/0521836573/ref=sr_1_3?s=english-books&ie=UTF8&qid=1381750459&sr=1-3&keywords=unstructured+data

12.Posté par Abed Ajraou le 12/10/2013 16:48
@Thierry : vous avez écrit "C'est drole de dire que le statisticien n'accepte "que" des données structurées, un livre certe vieux mais écrit pas un éminent data miner http://hfs1.duytan.edu.vn/upload/ebooks/3836.pdf en 1999, 466 pages sur le sujet." Dans ce livre, sauf erreur de ma part, je n'ai pas vu le traitement de données dites non-structurées, donc je vous voulais que vous nous faites part de votre lumière sur ce sujet. Donc j'attends toujours que le passage où Pyle prend en entrée des données non-structurées. C'est aussi simple que ça.

11.Posté par Vallaud Thierry le 11/10/2013 19:58
Je citais Pyle pour l'aspect préparation des données qui les structure
Abed vous pensez cincèrement que je n'ai pas d'idée très précise de ce qu'est une donnée "non structurée", les logs, les textes....et les outils pour les analyser en les structurant justement.
Ce n'est pas très sympatique....

10.Posté par GARROUSTE Damien le 11/10/2013 18:23
Pour compléter mon premier message (#3) :

A propos des données non structurées :
Pour compléter le fait que les statisticiens s'intéressent depuis longtemps à la donnée non structurée, on peut citer le livre de "Lebart et Salem" Statistique Textuelle.
A noter que c'est une vision datée car une vision uniquement statistique, aujourd'hui le "text analytics", le "text mining" dépendent de la linguistique qui permet de capturer le contexte dans lequel les mots sont exprimés. La donnée étant la base, la linguistique est donc indispensable.
Doit on conclure que le data scientist doit être également linguiste ? cela paraît difficile.


A propos de Maitriser les architectures de données distribuées, « parallélisées » et « multi-processées »

Je n'en ai pas parlé dans mon premier message qui était déjà long...
J'ai l'expérience de l'environnement telecom où depuis plus de 10 ans les architectures sont distribuées et massivement parallèles (prédominance d'un éditeur dont le nom commence par T) et bon nombre de dataminers de ce secteur ont appris à utiliser nativement les fonctionnalités de la base de donnée MPP, ils connaissent les subtilités et les avantages du travail indatabase.
Néanmoins, je suis d'accord avec ABED, Hadoop reste obscur pour les statisticiens mais n'est ce pas vrai également pour les IT;-) ?

9.Posté par Abed Ajraou le 11/10/2013 10:03
Excellent! Je vois que les statisticiens commencent à bouger dans le bon sens du terme. Ce qui me plait dans le commentaire d'Alain, c'est que comme Rosling a écrit un livre sur les statistiques donc les statisticiens sont des pros du Story Telling? Malheureusement rares sont les statisticiens qui maîtrisent cette science, mais je vois qu'il en a qui s'y intéressent, et c'est déjà pas mal et prometteur pour l'avenir.

@Thierry, pour compléter votre remarque sur le livre de Dorian Pyle, est-ce que vous pourriez nous dire où dans son livre Dorian traite les données non structurées? Car si pour vous l'aspect non structuré se limite à l'exemple qu'il cite sur le café trop chaud ou trop froid, je crois que la définition d'une donnée non structurée est à revoir et ce qui justifie d'autant plus mon commentaire!

1 2 3
Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store