La data science : l’apprentissage à partir des données ?
Dans un article de 1962, John Turkey, célèbre statisticien américain, expliquait pourquoi il pensait que la recherche scientifique en statistiques était trop étroitement ciblée, si ce n’est nuisible à l’activité d’analyse des données, appelant ainsi à ce qu’elle devienne une nouvelle science plus globale, capable d’apporter des réponses aux différents défis (mathématiques, informatiques...) posés par de nouveaux types de données. Son point de vue, partagé et appuyé par d’autres scientifiques de la branche, repose ainsi sur l’élargissement de leur champ au concept inclusif d’apprentissage à partir des données. De manière plus récente, c’est bien le succès des GAFA qui a permis de valoriser la donnée et au terme de « data science » d’envahir finalement les médias grand public. L’occasion de faire le point sur quelques idées reçues concernant les termes de « statistiques » et « data science » qu’il convient bien de distinguer.
De la distinction des compétences...
Avant toute chose, il convient de revenir sur la principale idée reçue qui voudrait que la data science ne serait que la statistique appliquée au big data ? En réalité, les statisticiens traitent les données quelle que soit leur volumétrie ! Historiquement, les statisticiens ont traité des quantités de données considérables à l’échelle des populations des pays. Est-il donc bien légitime d’inventer une nouvelle science, du seul fait que nous produisons et traitons aujourd’hui des quantités de données plus importantes ?... L’une des premières distinctions repose surtout sur la maitrise de certaines compétences spécifiques aux data scientists, le plus souvent informatiques. En effet, prenons l’exemple de l’utilisation de Hadoop, servant à répartir des ensembles de données sur un cluster d’ordinateurs. Est-ce une compétence qui résout le problème de l’analyse des données ou est-ce simplement une solution à un artefact d’ordre organisationnel ? Dans les structures dédiées au big data, l’infrastructure du traitement des données de production est déjà bien établie. Dès lors que le flux de données est assuré, c’est donc le retour à la case départ : il faut dès lors parvenir à produire des analyses pertinentes.
...à celle de l’approche même du traitement des données
Mais ce qui distingue aujourd’hui plus fondamentalement la data science des statistiques, c'est la différence dans l’approche de la valorisation des données : l’approche générative ou l’approche prédictive. La première cherche à établir la structure d’un modèle adapté aux données, puis à tirer des conclusions sur le mécanisme générateur de donnée, alors que la seconde donne la priorité à la prédiction, ne s’intéressant pas au mécanisme sous-jacent à la production des données et préférant se concentrer la précision de la prédiction des algorithmes. C’est aujourd’hui bien la modélisation prédictive qui est l’un des moteurs essentiels de l’intelligence artificielle, permettant l’utilisation des données pour aider l’ordinateur à l’automatisation, et l’une des innovations les plus marquantes de ces dernières décennies ! Les avancées qu’a connu le « Machine Learning », sur lequel est basé l’essentiel des systèmes d’IA modernes, vers davantage de prédiction constituent sans aucun doute l’un des principaux fossés existants aujourd’hui entre les statistiques traditionnelles et la data science.
Elle a donc aujourd’hui de solides raisons d’exister, ne se résumant pas à la seule combinaison des statistiques et de l’informatique. Et pour cause, pour résoudre des problèmes concrets, un data scientist devra s’acquitter des tâches qui dépassent sa formation traditionnelle, faisant notamment appel aux succès des techniques du deep learning pour tester plus largement et répondre plus spécifiquement.
Elle a donc aujourd’hui de solides raisons d’exister, ne se résumant pas à la seule combinaison des statistiques et de l’informatique. Et pour cause, pour résoudre des problèmes concrets, un data scientist devra s’acquitter des tâches qui dépassent sa formation traditionnelle, faisant notamment appel aux succès des techniques du deep learning pour tester plus largement et répondre plus spécifiquement.