Tout cuisinier sait que la réussite d'un chef-d'œuvre culinaire, comme un soufflé au chocolat, réside en grande partie dans les ingrédients. Il est difficile de préparer un excellent repas si les ingrédients sont mauvais ou si leur combinaison n'est pas adéquate. Il en va de même pour l'analyse de données. Si les données sont incomplètes, inexactes ou sans rapport avec le problème à résoudre, il sera difficile, voir impossible, de créer un modèle. Par exemple, si le modèle de calcul de la valeur des clients attribue un faible score à certains clients rentables car les transactions en ligne ou les commandes spéciales ne sont pas prises en compte, il y a le risque de perdre certains des meilleurs clients. L’efficacité d’un modèle d'analyse de données est donc directement proportionnelle à la qualité des données. En d'autres termes, ont ne peut pas faire un bon soufflé au chocolat avec de mauvais ingrédients.
L'analyse de données exploite des algorithmes de statistiques et d'apprentissage automatique pour trouver des informations qui peuvent contribuer à résoudre les problèmes quotidiens que rencontrent les entreprises. Lorsque les utilisateurs font de l'analyse de données, ils mettent en œuvre en général des algorithmes mathématiques tels que des réseaux neuronaux, des arbres de décision et d'autres techniques statistiques complexes qui servent à rechercher des tendances dans les données. S'il est vrai que ces algorithmes sont une partie importante de l'analyse de données, il convient de noter que ces outils recherchent des tendances dans n'importe quelles données, quelle que soit les capacité de ces dernières à représenter les comportements et les tendances que l’on essaye de modéliser. Pour cette raison, la préparation des données est l'une des étapes les plus critiques dans l'analyse de données et pourtant, il s'agit souvent de l'une des étapes les plus négligées.
La première étape dans la préparation des données consiste à recueillir les données relatives au problème à résoudre. Si un utilisateur possède un entrepôt de données d'entreprise, le processus est considérablement simplifié. Au contraire, si les données sont stockées en divers endroits, il faut explorer plusieurs sources afin d'identifier les données disponibles pour résoudre le problème. Dès que les données qui doivent être analysées sont définies, il convient de les intégrer, les évaluer et éventuellement les transformer pour s’assurer qu'elles sont valides d'un point de vue conceptuel, cohérentes et statistiquement analysables. Par exemple, si les données proviennent de différentes sources, il faudra résoudre de nombreux problèmes de formats et de définitions.
Même si un utilisateur a la chance d'avoir un entrepôt de données d’entreprise, il est possible que les données qu'il contient ne conviennent pas en l’état pour l’analyse envisagée. Il convient alors d’isoler et préparer des données pour le modèle. Cela signifie qu’il faut travailler en collaboration avec les analystes et les experts en données afin de définir les éléments qui sont nécessaire pour réaliser le modèle. Il est primordial, pour chaque variable, de définir s’il faut utiliser toutes les données ou uniquement un sous-ensemble. Il convient aussi de définir une stratégie pour traiter les valeurs aberrantes (données hors norme) ou éventuellement développer quand même un modèle reposant sur ces valeurs. Par exemple, si l’objectif est de prévoir les taux de fréquentation et les revenus de rencontres sportives, il faut certainement éliminer les chiffres de fréquentations anormales dues à des événements particuliers, grève des transports, etc.… Au contraire dans le cas de la détection de fraudes, il peut-être pertinent de se concentrer sur certaines valeurs aberrantes car elles sont peut-être la représentation de transactions frauduleuses.
Une fois que les données sont sélectionnées, il convient de les analyser à l'aide de techniques de statistiques descriptives et de visualisation pour identifier les problèmes de qualité et mieux comprendre les caractéristiques des données. Des problèmes de qualité des données peuvent être mis en lumière, tels que des valeurs manquantes qui peuvent nuire à l'intégrité de n'importe quel modèle d'analyse. Il faut alors compenser et corriger les problèmes identifiés. Ainsi, s'il manque des données, il faut déterminer la meilleure méthode pour abandonner ou remplacer ces valeurs manquantes. Certaines techniques d'analyse de données permettent d’estimer les valeurs manquantes sur la base d'autres valeurs mesurées.
Il existe de nombreuses techniques qui peuvent être employées pour obtenir de meilleurs modèles. Il s'agit par exemple de créer des variables "dérivées", de remplacer des valeurs manquantes ou d’utiliser des techniques d'agrégation ou de réduction des données. Il peut être nécessaire de rechercher les meilleurs agrégats ou de nouvelles variables analytiques pour construire un modèle optimum. Par exemple, dans le cadre de la préparation des données relatives aux clients en vue d'un programme de marketing pour un nouveau prêt, le rapport endettement/revenu peut être un indicateur mieux adapté que le seul revenu ou le seul endettement.
Enfin, les données doivent être transformées dans un format adapté aux algorithmes d'analyse. De nombreux algorithmes d'analyse de données requièrent la transformation des données de classification (non numériques) en données numériques ou la réduction de celles-ci dans une plage particulière. Certains algorithmes et techniques statistiques nécessitent également que les données numériques possèdent des propriétés spécifiques qui n'existent peut-être pas dans les données avant la transformation. Pour ces variables, il faudra peut-être les encoder à nouveau ou les transformer pour produire les variables adéquates pour les techniques d'analyse de données. Ainsi la valeur des données est directement proportionnelle au temps et au soin consacré à leur préparation en vue de régler un problème analytique particulier. A l'instar de ce que dirait un cuisinier en préparant son plat, la qualité du résultat final dépend en grande partie des ingrédients.
Comme il l'a été dit plus haut, la préparation des données est un processus qui peut prendre du temps. En fait, les spécialistes de l'analyse de données qui comprennent l'importance de la préparation peuvent passer jusqu’à 70 pour cent de l'ensemble du processus d'analyse, à l'étude et au prétraitement des données. Ils agissent ainsi du fait du caractère nécessairement itératif de la préparation des données. Lors de l'étude et du traitement préalable, l'analyste réalise des expériences avec les données. Il examine les relations entre les variables et ceci peut nécessiter plusieurs itérations de requêtes ad hoc ou d'autres analyses sur un volume important de données. Jusqu'il y a peu cette préparation était difficile car la majorité des outils d'analyse de données ne fournissait pas les fonctions nécessaires pour effectuer avec efficacité l'étude et le traitement de large volume de données et ceci était un inconvénient majeur pour les spécialistes de l'analyse de données.
Les personnes qui savent que ces tâches de préparation des données sont nécessaires et très utiles, mettent en oeuvre des moyens techniques complexes, comme l'analyse de grands volumes de données. La majorité d'entre elles prépare les données directement dans les bases afin d'éviter de devoir déplacer de grands volumes de données vers un serveur ou un poste de travail dédié à l’analyse de données. Cette méthode a fait ses preuves et les spécialistes de l'analyse de données ont souvent utilisés des programmes SQL qu’ils ont fait spécifiquement développés ou bien ils ont appris eux-mêmes le langage SQL. Ceci étant dit, l'on observe une évolution nette en la matière vu les progrès réalisés dans les technologies de gestion de données.
Il existe désormais des alternatives aux programmes SQL développés « manuellement » pour la préparation des données. De nouvelles solutions telles que les technologies de génération SQL au sein des bases de données permettent de réaliser la préparation des données directement au sein de la base d'une entreprise. Au lieu de déplacer les données vers l'outil, des solutions telles que le logiciel Teradata ADS Generator (ADS = Analytical Data Set) permettent de placer les fonctions nécessaires et les traitements directement au sein de la base de données. Cette solution accélère non seulement l'analyse grâce à l’utilisation du moteur de base de données parallèle Teradata qui prend en charge toutes les fonctions d'analyse, mais il offre également des fonctions qui facilitent et dans certains cas automatisent des tâches de prétraitement des données. Le module d’exploration de données est particulièrement efficace au niveau du profilage des données grâce à une intelligence intégrée qui analyse et transforme les données.
Les modules de création de variables et de transformation de variables au sein de Teradata ADS Generator favorisent le recours aux meilleures pratiques en matière de préparation des données. L'interface conviviale permet d'analyser rapidement et efficacement les données de plusieurs tables. Les résultats de ces analyses sont présentés dans des tableaux et des graphiques faciles à interpréter. Cela signifie que l'étude et le prétraitement des données, qui nécessitaient des semaines de travail, peuvent être désormais réalisés en quelques jours, voire en quelques heures. Cela reviendrait à pouvoir préparer un meilleur soufflé au chocolat en un temps record… peut-être même en quelques minutes. Le plus grand des cuisiniers serait comblé.
Les technologies de préparation des données telles que celles de Teradata ADS Generator font que l'étude et le prétraitement des données ne prennent plus autant de temps que par le passé. Au contraire, grâce à ces nouvelles technologies, la préparation des données est devenue beaucoup plus simple, plus facile et plus rentable. Pensez-y la prochaine fois que vous mangerez un soufflé au chocolat.
Pour aller plus loin vous pouvez utilement consulter le lien ci-dessous :
http://www.teradata.com/t/page/44097/index.html
L'analyse de données exploite des algorithmes de statistiques et d'apprentissage automatique pour trouver des informations qui peuvent contribuer à résoudre les problèmes quotidiens que rencontrent les entreprises. Lorsque les utilisateurs font de l'analyse de données, ils mettent en œuvre en général des algorithmes mathématiques tels que des réseaux neuronaux, des arbres de décision et d'autres techniques statistiques complexes qui servent à rechercher des tendances dans les données. S'il est vrai que ces algorithmes sont une partie importante de l'analyse de données, il convient de noter que ces outils recherchent des tendances dans n'importe quelles données, quelle que soit les capacité de ces dernières à représenter les comportements et les tendances que l’on essaye de modéliser. Pour cette raison, la préparation des données est l'une des étapes les plus critiques dans l'analyse de données et pourtant, il s'agit souvent de l'une des étapes les plus négligées.
La première étape dans la préparation des données consiste à recueillir les données relatives au problème à résoudre. Si un utilisateur possède un entrepôt de données d'entreprise, le processus est considérablement simplifié. Au contraire, si les données sont stockées en divers endroits, il faut explorer plusieurs sources afin d'identifier les données disponibles pour résoudre le problème. Dès que les données qui doivent être analysées sont définies, il convient de les intégrer, les évaluer et éventuellement les transformer pour s’assurer qu'elles sont valides d'un point de vue conceptuel, cohérentes et statistiquement analysables. Par exemple, si les données proviennent de différentes sources, il faudra résoudre de nombreux problèmes de formats et de définitions.
Même si un utilisateur a la chance d'avoir un entrepôt de données d’entreprise, il est possible que les données qu'il contient ne conviennent pas en l’état pour l’analyse envisagée. Il convient alors d’isoler et préparer des données pour le modèle. Cela signifie qu’il faut travailler en collaboration avec les analystes et les experts en données afin de définir les éléments qui sont nécessaire pour réaliser le modèle. Il est primordial, pour chaque variable, de définir s’il faut utiliser toutes les données ou uniquement un sous-ensemble. Il convient aussi de définir une stratégie pour traiter les valeurs aberrantes (données hors norme) ou éventuellement développer quand même un modèle reposant sur ces valeurs. Par exemple, si l’objectif est de prévoir les taux de fréquentation et les revenus de rencontres sportives, il faut certainement éliminer les chiffres de fréquentations anormales dues à des événements particuliers, grève des transports, etc.… Au contraire dans le cas de la détection de fraudes, il peut-être pertinent de se concentrer sur certaines valeurs aberrantes car elles sont peut-être la représentation de transactions frauduleuses.
Une fois que les données sont sélectionnées, il convient de les analyser à l'aide de techniques de statistiques descriptives et de visualisation pour identifier les problèmes de qualité et mieux comprendre les caractéristiques des données. Des problèmes de qualité des données peuvent être mis en lumière, tels que des valeurs manquantes qui peuvent nuire à l'intégrité de n'importe quel modèle d'analyse. Il faut alors compenser et corriger les problèmes identifiés. Ainsi, s'il manque des données, il faut déterminer la meilleure méthode pour abandonner ou remplacer ces valeurs manquantes. Certaines techniques d'analyse de données permettent d’estimer les valeurs manquantes sur la base d'autres valeurs mesurées.
Il existe de nombreuses techniques qui peuvent être employées pour obtenir de meilleurs modèles. Il s'agit par exemple de créer des variables "dérivées", de remplacer des valeurs manquantes ou d’utiliser des techniques d'agrégation ou de réduction des données. Il peut être nécessaire de rechercher les meilleurs agrégats ou de nouvelles variables analytiques pour construire un modèle optimum. Par exemple, dans le cadre de la préparation des données relatives aux clients en vue d'un programme de marketing pour un nouveau prêt, le rapport endettement/revenu peut être un indicateur mieux adapté que le seul revenu ou le seul endettement.
Enfin, les données doivent être transformées dans un format adapté aux algorithmes d'analyse. De nombreux algorithmes d'analyse de données requièrent la transformation des données de classification (non numériques) en données numériques ou la réduction de celles-ci dans une plage particulière. Certains algorithmes et techniques statistiques nécessitent également que les données numériques possèdent des propriétés spécifiques qui n'existent peut-être pas dans les données avant la transformation. Pour ces variables, il faudra peut-être les encoder à nouveau ou les transformer pour produire les variables adéquates pour les techniques d'analyse de données. Ainsi la valeur des données est directement proportionnelle au temps et au soin consacré à leur préparation en vue de régler un problème analytique particulier. A l'instar de ce que dirait un cuisinier en préparant son plat, la qualité du résultat final dépend en grande partie des ingrédients.
Comme il l'a été dit plus haut, la préparation des données est un processus qui peut prendre du temps. En fait, les spécialistes de l'analyse de données qui comprennent l'importance de la préparation peuvent passer jusqu’à 70 pour cent de l'ensemble du processus d'analyse, à l'étude et au prétraitement des données. Ils agissent ainsi du fait du caractère nécessairement itératif de la préparation des données. Lors de l'étude et du traitement préalable, l'analyste réalise des expériences avec les données. Il examine les relations entre les variables et ceci peut nécessiter plusieurs itérations de requêtes ad hoc ou d'autres analyses sur un volume important de données. Jusqu'il y a peu cette préparation était difficile car la majorité des outils d'analyse de données ne fournissait pas les fonctions nécessaires pour effectuer avec efficacité l'étude et le traitement de large volume de données et ceci était un inconvénient majeur pour les spécialistes de l'analyse de données.
Les personnes qui savent que ces tâches de préparation des données sont nécessaires et très utiles, mettent en oeuvre des moyens techniques complexes, comme l'analyse de grands volumes de données. La majorité d'entre elles prépare les données directement dans les bases afin d'éviter de devoir déplacer de grands volumes de données vers un serveur ou un poste de travail dédié à l’analyse de données. Cette méthode a fait ses preuves et les spécialistes de l'analyse de données ont souvent utilisés des programmes SQL qu’ils ont fait spécifiquement développés ou bien ils ont appris eux-mêmes le langage SQL. Ceci étant dit, l'on observe une évolution nette en la matière vu les progrès réalisés dans les technologies de gestion de données.
Il existe désormais des alternatives aux programmes SQL développés « manuellement » pour la préparation des données. De nouvelles solutions telles que les technologies de génération SQL au sein des bases de données permettent de réaliser la préparation des données directement au sein de la base d'une entreprise. Au lieu de déplacer les données vers l'outil, des solutions telles que le logiciel Teradata ADS Generator (ADS = Analytical Data Set) permettent de placer les fonctions nécessaires et les traitements directement au sein de la base de données. Cette solution accélère non seulement l'analyse grâce à l’utilisation du moteur de base de données parallèle Teradata qui prend en charge toutes les fonctions d'analyse, mais il offre également des fonctions qui facilitent et dans certains cas automatisent des tâches de prétraitement des données. Le module d’exploration de données est particulièrement efficace au niveau du profilage des données grâce à une intelligence intégrée qui analyse et transforme les données.
Les modules de création de variables et de transformation de variables au sein de Teradata ADS Generator favorisent le recours aux meilleures pratiques en matière de préparation des données. L'interface conviviale permet d'analyser rapidement et efficacement les données de plusieurs tables. Les résultats de ces analyses sont présentés dans des tableaux et des graphiques faciles à interpréter. Cela signifie que l'étude et le prétraitement des données, qui nécessitaient des semaines de travail, peuvent être désormais réalisés en quelques jours, voire en quelques heures. Cela reviendrait à pouvoir préparer un meilleur soufflé au chocolat en un temps record… peut-être même en quelques minutes. Le plus grand des cuisiniers serait comblé.
Les technologies de préparation des données telles que celles de Teradata ADS Generator font que l'étude et le prétraitement des données ne prennent plus autant de temps que par le passé. Au contraire, grâce à ces nouvelles technologies, la préparation des données est devenue beaucoup plus simple, plus facile et plus rentable. Pensez-y la prochaine fois que vous mangerez un soufflé au chocolat.
Pour aller plus loin vous pouvez utilement consulter le lien ci-dessous :
http://www.teradata.com/t/page/44097/index.html