Jérôme Besson, associé chez Sentelis
En plus d’une intégration progressive, un changement culturel important doit être mené pour accepter le fait que la Data Science nécessite des cycles d’expérimentation réguliers ce qui est en opposition avec la culture habituelle du résultat. En effet, la ‘Data Science’ est une science expérimentale et non-exacte ce qui nécessite d’accepter l’échec. Pour garantir son succès, le changement culturel doit s’opérer par le haut et requière un support du top management sur la durée pour soutenir et transmettre cette nouvelle culture de l’expérimentation à toutes les strates de l’entreprise.
Coté système d’information, la ‘Data Science’ nécessite de disposer de capacités de stockage et d’analyses élastiques peu coûteuses, comme celles que l’on trouve dans le ‘Cloud’ ou que l’on peut constituer ‘in-house’ sur la base de briques ‘open source’ et de ‘commodity hardware’, adoptant ainsi les canons architecturaux et les technologies des géants de la donnée. La ‘Data science’ est un excellent cas d’usage Big Data pour adopter un modèle d’architecture SI 3.0, seul modèle capable de répondre aux nouveaux enjeux SI de l’entreprise 3.0. Ce modèle prône la mise en place d’une infrastructure fédérée de données qui mutualise de façon industrielle l’ensemble des services de stockage et de traitements de toutes les données à disposition de l’entreprise, qu’elles soient internes ou externes, structurées ou non-structurées. Une infrastructure partagée avec les activités de ‘Business Intelligence’ et de ‘Business Analytics’ et au-delà avec tous les systèmes opérationnels de l’entreprise.
Une démocratisation des algorithmes
L’exploitation optimal des données du ‘data lake’ nécessite des compétences étendues. Mais nul besoin dans la plupart des cas d’investir d’emblée dans une armée de ‘Data Scientists’. Il existe en effet de plus en plus d’offres logicielles packagées et d’offres de services ‘cloud’ permettant de réaliser déjà des analyses à forte valeur ajoutée sur la plupart des données de l’entreprise, y compris les plus techniques. Il est d’ailleurs sans doute préférable dans bien des cas de se concentrer d’abord sur la collecte et la qualité des informations que sur le développement long et onéreux d’un algorithme complexe au résultat totalement tributaire de la qualité des données ingérées.
D’autant que l’écosystème ‘Data Science / Big Data’ se démocratise à une telle vitesse que l’on peut accéder à des algorithmes avancés jusque-là réservés à la seule sphère scientifique. On trouve ainsi aujourd’hui une multitude de projets ‘open source’ tels que Spark MLBase, Apache Mahout qui permettent aux ‘Data Scientists’ en herbe d’expérimenter des algorithmes complexes et ce, sans obligation d’être docteur en mathématiques statistiques ou expert en intelligence artificielle. Des algorithmes documentés et aux limites connues qui permettent d’avoir un regard nouveau sur son stock de données actuelles, en tirer une valeur insoupçonnée, poser de plus grandes et ambitieuses questions. Avec un minimum de connaissance, il est possible de construire des modèles d’entreprise robustes à partir de ces algorithmes publics. On est ainsi capable aujourd’hui de mettre en place en quelques semaines un indicateur de satisfaction clients fiable à partir de la seule analyse des échanges avec ces derniers (conversation, questionnaire de satisfaction, courriel, etc.)
Gouvernance et uniformisation des pratiques
Mais la technologie et l’algorithmique ne font pas tout. L’entreprise doit en parallèle renforcer la gouvernance de ses données pour encadrer ses activités de ‘Data Science’, pour canaliser les initiatives et s’assurer en permanence de leur conformité à la réglementation sur l’information, aux valeurs et l’image de marque qu’elle entend véhiculer. La ‘Data Science’ doit se faire de façon éthique au risque de dommages plus importants et plus destructeurs que la somme de tous ses bénéfices.
Enfin, il est critique d’uniformiser la pratique de la ‘Data Science’ à l’échelle de l’entreprise. L’uniformisation des pratiques ‘Data Science’ est essentielle pour s’assurer de la cohérence de la démarche méthodologique et donc de l’intégrité des résultats. En effet, les métriques d’évaluation des modèles prédictifs diffèrent en fonction des usages et sont souvent sujettes à interprétation (i.e. seuil d’erreur acceptable pour tel ou tel un modèle). L’erreur de prédiction, par exemple, très populaire pour l’évaluation de plusieurs modèles prédictifs peut induire à une mauvaise évaluation des résultats en l’absence d’une démarche approuvée qui mitige ce type de risque. L’absence de standards à l’échelle de l’entreprise sur le sujet rendra les analyses incohérentes dans le temps et la progression difficile à cerner.
Cette mise sous contrôle pourra se faire soit au travers d’un centre de services ‘Data Science’ fournissant des activités clé en main de ‘Data Lab’ soit au travers d’une plateforme ‘Data Science’ en mode ‘Software As A Service’ à l’usage encadré et contrôlé.
Coté système d’information, la ‘Data Science’ nécessite de disposer de capacités de stockage et d’analyses élastiques peu coûteuses, comme celles que l’on trouve dans le ‘Cloud’ ou que l’on peut constituer ‘in-house’ sur la base de briques ‘open source’ et de ‘commodity hardware’, adoptant ainsi les canons architecturaux et les technologies des géants de la donnée. La ‘Data science’ est un excellent cas d’usage Big Data pour adopter un modèle d’architecture SI 3.0, seul modèle capable de répondre aux nouveaux enjeux SI de l’entreprise 3.0. Ce modèle prône la mise en place d’une infrastructure fédérée de données qui mutualise de façon industrielle l’ensemble des services de stockage et de traitements de toutes les données à disposition de l’entreprise, qu’elles soient internes ou externes, structurées ou non-structurées. Une infrastructure partagée avec les activités de ‘Business Intelligence’ et de ‘Business Analytics’ et au-delà avec tous les systèmes opérationnels de l’entreprise.
Une démocratisation des algorithmes
L’exploitation optimal des données du ‘data lake’ nécessite des compétences étendues. Mais nul besoin dans la plupart des cas d’investir d’emblée dans une armée de ‘Data Scientists’. Il existe en effet de plus en plus d’offres logicielles packagées et d’offres de services ‘cloud’ permettant de réaliser déjà des analyses à forte valeur ajoutée sur la plupart des données de l’entreprise, y compris les plus techniques. Il est d’ailleurs sans doute préférable dans bien des cas de se concentrer d’abord sur la collecte et la qualité des informations que sur le développement long et onéreux d’un algorithme complexe au résultat totalement tributaire de la qualité des données ingérées.
D’autant que l’écosystème ‘Data Science / Big Data’ se démocratise à une telle vitesse que l’on peut accéder à des algorithmes avancés jusque-là réservés à la seule sphère scientifique. On trouve ainsi aujourd’hui une multitude de projets ‘open source’ tels que Spark MLBase, Apache Mahout qui permettent aux ‘Data Scientists’ en herbe d’expérimenter des algorithmes complexes et ce, sans obligation d’être docteur en mathématiques statistiques ou expert en intelligence artificielle. Des algorithmes documentés et aux limites connues qui permettent d’avoir un regard nouveau sur son stock de données actuelles, en tirer une valeur insoupçonnée, poser de plus grandes et ambitieuses questions. Avec un minimum de connaissance, il est possible de construire des modèles d’entreprise robustes à partir de ces algorithmes publics. On est ainsi capable aujourd’hui de mettre en place en quelques semaines un indicateur de satisfaction clients fiable à partir de la seule analyse des échanges avec ces derniers (conversation, questionnaire de satisfaction, courriel, etc.)
Gouvernance et uniformisation des pratiques
Mais la technologie et l’algorithmique ne font pas tout. L’entreprise doit en parallèle renforcer la gouvernance de ses données pour encadrer ses activités de ‘Data Science’, pour canaliser les initiatives et s’assurer en permanence de leur conformité à la réglementation sur l’information, aux valeurs et l’image de marque qu’elle entend véhiculer. La ‘Data Science’ doit se faire de façon éthique au risque de dommages plus importants et plus destructeurs que la somme de tous ses bénéfices.
Enfin, il est critique d’uniformiser la pratique de la ‘Data Science’ à l’échelle de l’entreprise. L’uniformisation des pratiques ‘Data Science’ est essentielle pour s’assurer de la cohérence de la démarche méthodologique et donc de l’intégrité des résultats. En effet, les métriques d’évaluation des modèles prédictifs diffèrent en fonction des usages et sont souvent sujettes à interprétation (i.e. seuil d’erreur acceptable pour tel ou tel un modèle). L’erreur de prédiction, par exemple, très populaire pour l’évaluation de plusieurs modèles prédictifs peut induire à une mauvaise évaluation des résultats en l’absence d’une démarche approuvée qui mitige ce type de risque. L’absence de standards à l’échelle de l’entreprise sur le sujet rendra les analyses incohérentes dans le temps et la progression difficile à cerner.
Cette mise sous contrôle pourra se faire soit au travers d’un centre de services ‘Data Science’ fournissant des activités clé en main de ‘Data Lab’ soit au travers d’une plateforme ‘Data Science’ en mode ‘Software As A Service’ à l’usage encadré et contrôlé.
Autres articles
-
Podcast: Mikaël Elbaz, associé chez Mazars, explique l'utilisation de Qlik dans la finance
-
Les métiers de la data science en 2020, le futur d’un passé régénéré
-
Podcast: Mehdi Chouiten, Datategy annonce une nouvelle plateforme de data science
-
Webinaire Decideo : Informatique Quantique, ses apports probables à la Science des Données
-
Re-écoutez le Webinaire TIBCO
Citizen Data Scientist : la science des données à la portée de tous