Tout cuisinier sait que la réussite d'un chef-d'œuvre culinaire réside en grande partie dans les ingrédients. Il est difficile de préparer un excellent repas si les ingrédients sont mauvais ou si leur combinaison n'est pas adéquate. Il en va de même pour l'analyse de données. Si les données sont incomplètes, inexactes, ou sans rapport avec le problème à résoudre, il sera difficile, voire impossible, de créer un modèle. Par exemple, si le modèle de calcul de la valeur des clients attribue un faible score à certains clients rentables, car les transactions en ligne ou les commandes spéciales ne sont pas prises en compte, il y a le risque de perdre certains des meilleurs clients. L’efficacité d’un modèle d'analyse de données est donc directement proportionnelle à la qualité des données. En d'autres termes, on ne peut pas cuisiner un bon repas avec de mauvais ingrédients.
L'analyse de données exploite des algorithmes de statistiques et d'apprentissage automatique pour trouver des informations qui peuvent contribuer à résoudre les problèmes quotidiens que rencontrent les entreprises. Lorsque les utilisateurs font de l'analyse de données, ils mettent en œuvre en général des algorithmes mathématiques tels que des réseaux neuronaux, des arbres de décision et d'autres techniques statistiques complexes qui servent à rechercher des tendances dans les données. S'il est vrai que ces algorithmes sont une partie importante de l'analyse de données, il convient de noter que ces outils recherchent des tendances dans n'importe quelles données, quelles que soient les capacités de ces dernières à représenter les comportements et les tendances que l’on essaye de modéliser. Pour cette raison, la préparation des données est l'une des étapes les plus critiques dans l'analyse de données et pourtant, il s'agit souvent de l'une des étapes les plus négligées.
La première étape dans la préparation des données consiste à recueillir les données relatives au problème à résoudre. Si un utilisateur possède un data lake, le processus est considérablement simplifié. Au contraire, si les données sont stockées en divers endroits, il faut explorer plusieurs sources afin d'identifier les données disponibles pour résoudre le problème. Dès que les données qui doivent être analysées sont définies, il convient de les intégrer, les évaluer et éventuellement les transformer pour s’assurer qu'elles sont valides d'un point de vue conceptuel, cohérentes et statistiquement analysables. Par exemple, si les données proviennent de différentes sources, il faudra résoudre de nombreux problèmes de formats et de définitions.
Même si un utilisateur a la chance d'avoir un data lake, les données qu'il contient ne conviendront probablement pas en l’état pour l’analyse envisagée. Il faut alors isoler et préparer des données pour le modèle. Cela signifie qu’il faut travailler en collaboration avec les analystes et les experts en données afin de définir les éléments qui sont nécessaires pour réaliser le modèle. Il est primordial, pour chaque variable, de définir s’il faut utiliser toutes les données ou uniquement un sous-ensemble. Il convient aussi de définir une stratégie pour traiter les valeurs aberrantes (données hors norme) ou éventuellement développer quand même un modèle reposant sur ces valeurs. Par exemple, si l’objectif est de prévoir les taux de fréquentation et les revenus de rencontres sportives, il faut certainement éliminer les chiffres de fréquentations anormales dues à des événements particuliers, grève des transports, etc.… Au contraire dans le cas de la détection de fraudes, il peut-être pertinent de se concentrer sur certaines valeurs aberrantes, car elles sont peut-être la représentation de transactions frauduleuses.
Une fois que les données sont sélectionnées, il convient de les analyser à l'aide de techniques de statistique descriptive et de visualisation pour identifier les problèmes de qualité et mieux comprendre les caractéristiques des données. Des problèmes de qualité des données peuvent être mis en lumière, tels que des valeurs manquantes qui peuvent nuire à l'intégrité de n'importe quel modèle d'analyse. Il faut alors compenser et corriger les problèmes identifiés. Ainsi, s'il manque des données, il faut déterminer la meilleure méthode pour abandonner ou remplacer ces valeurs manquantes. Certaines techniques d'analyse de données permettent d’estimer les valeurs manquantes sur la base d'autres valeurs mesurées.
Il existe de nombreuses techniques qui peuvent être employées pour obtenir de meilleurs modèles. Il s'agit par exemple de créer des variables "dérivées", de remplacer des valeurs manquantes ou d’utiliser des techniques d'agrégation ou de réduction des données. Il peut être nécessaire de rechercher les meilleurs agrégats ou de nouvelles variables analytiques pour construire un modèle optimum. Par exemple, dans le cadre de la préparation des données relatives aux clients en vue d'un programme de marketing pour un nouveau prêt, le rapport endettement/revenu peut être un indicateur mieux adapté que le seul revenu ou le seul endettement.
Enfin, les données doivent être transformées dans un format adapté aux algorithmes d'analyse. De nombreux algorithmes d'analyse de données requièrent la transformation des données de classification (non numériques) en données numériques ou la réduction de celles-ci dans une plage particulière. Certains algorithmes et techniques statistiques nécessitent également que les données numériques possèdent des propriétés spécifiques qui n'existent peut-être pas dans les données avant la transformation. Pour ces variables, il faudra peut-être les encoder à nouveau ou les transformer pour produire les variables adéquates pour les techniques d'analyse de données. Ainsi la valeur des données est directement proportionnelle au temps et au soin consacrés à leur préparation en vue de régler un problème analytique particulier.
À l'instar de ce que dirait un cuisinier en préparant son plat, la qualité du résultat final dépend en grande partie des ingrédients, mais on voit bien que les processus décrits ci-dessus ne peuvent être mis en œuvre avec succès que par des équipes compétentes. Pour aller plus loin sur ce sujet vous pouvez utilement consulter mon article intitulé : L’analyste de « Mégadonnées ou Big Data » doit se méfier de son enthousiasme : cliquez ici
Rédigé par Michel Bruley le Lundi 4 Avril 2016 à 09:01
|
Permalien
|
{0}
> A LIRE EN CE MOMENT SUR DECIDEO
-
Intelligence Artificielle et Machine Learning intéressent de plus en plus les départements financiers
-
Qlik améliore l’intégration avec SAP, Databricks et Snowflake et favorise la création de valeur grâce à l’IA
-
Encadrer l’utilisation de l’IA générative en entreprise
-
Qlik lève les obstacles à la migration vers le cloud et ouvre la voie à une adoption transparente de l’IA dans tous les secteurs
-
Databricks lève 10 milliards de dollars dans une levée de fonds en Série J, avec une valorisation de 62 milliards de dollars
-
Boomi renforce ses capacités de gestion des données avec l'acquisition du fournisseur d'intégration de données Rivery
-
Comand AI lève 8,5 millions d'euros pour apporter une supériorité militaire décisive à la France et ses alliés
-
Une entreprise française sur deux réduit ses investissements dans l'IA par manque de confiance
-
ChatGPT nous donne ses 5 tendances du marché de la data en 2025
-
Prédictions IA pour 2025 : embrasser la collaboration entre les humains et les machines
Profil
Michel Bruley
Liste de liens
Dernières notes
Meilleurs vœux aux parents pour 2024
10/01/2024
Galerie
Archives
Rubriques
Rubriques