Comment choisir un outil d’exploration de données


Rédigé par Michel BRULEY, Directeur Marketing de Teradata France le 20 Décembre 2005



Pour sélectionner un outil analytique beaucoup d’entreprise se contente de prendre l’outil que leurs spécialistes de l’exploration de données connaissent déjà. Cela peut paraître surprenant, mais comme la grande majorité des personnes qui ont suivi un troisième cycle ont dû utiliser des outils d’analyse de SAS Institute ou de SPSS Inc. cette voie est très souvent suivie, et cela confirme le principe que dans la nature c’est toujours la voie de la facilité qui prédomine. Cependant pour ceux qui ne veulent pas procéder ainsi les quatre critères suivants devraient faire partie de toute évaluation d’outils : profondeur de la technique d’analyse, largeur de la technique d’analyse, fonctions de traitement des données et facilité d’utilisation. (la profondeur fait référence à la qualité et à la fiabilité de chaque technique d’analyse, tandis que la largeur fait référence au nombre de techniques d’analyse prises en charge par l’outil.)

Il existe de nombreux candidats potentiels sur le marché, mais seule une douzaine d’entre eux font réellement ce qu’ils prétendent être capables de réaliser. L’évaluation de la qualité des algorithmes dissimulés sous les propos marketing requiert une grande expérience en statistique. Si vous ne disposez pas de cette expérience en interne, il est conseillé d’engager un consultant indépendant spécialisé dans l’analyse et l’exploration de données pour vous aider à évaluer et à réduire le choix des outils. Pour en revenir à vos besoins, un outil peut parfaitement convenir s’il traite une ou deux tâches d’analyse en profondeur, en complexité et deux ou trois autres superficiellement, pour autant que la profondeur de chaque technique corresponde à la profondeur de l’analyse nécessaire à la résolution de vos problèmes. Les outils d’analyse coûtent cher et il faut un certain temps avant d’apprendre à les utiliser efficacement. Il se peut qu’une entreprise sache qu’elle a besoin de tout un ensemble d’outils mais il est préférable de choisir au début un outil qui offre les principales fonctions requises, d’apprendre à s’en servir correctement et d’y ajouter par la suite des fonctions spéciales au fil de l’évolution des besoins en exploration de données.

Les deux plus grands soucis liés aux données portent sur le volume et la manipulation. Chaque outil possède une limite de volume. Il est important de voir si cette limite n’est pas trop basse. Si c’est le cas, cela signifie que l’outil a été conçu en tant que moteur d’analyse pour de petits volumes de données et non pour l’exploration de données. La possibilité de traiter de grands volumes est une exigence récente et de plus en plus présente. De nombreux outils sur le marché ont été développés avant l’émergence de ces nouvelles exigences au niveau des volumes et ils n’ont pas encore mis à jour leurs capacités. En plus du volume, la facilité des manipulations et des transformations des données est un facteur important à prendre en considération si vous souhaitez que la préparation des données soit efficace et bien gérée. On n’insistera jamais assez sur l’importance de découvrir et de tester les caractéristiques de chaque donnée jusqu’à ce que l’on soit certain de posséder les bons éléments et que l’on connaisse toutes leurs caractéristiques. En règle générale, la qualité des résultats est directement proportionnelle au nombre d’itérations prises en charge par l’outil.

En manière de facilité d’utilisation, comme pour bien d’autres choses, plus un outil est complexe, plus l’apprentissage prendra du temps. Il se peut que l’outil avec l’interface utilisateur la plus simple et la plus intuitive permettent à vos spécialistes de l’exploration de données d’être opérationnels très rapidement mais il peut également très vite atteindre ses limites face à la complexité croissante de l’exploration de données. Comme je l’ai déjà dit, la sélection de l’outil sophistiqué que vos spécialistes de l’exploration de données connaissent déjà a ses avantages. La phase d’apprentissage est raccourcie et il est fort probable qu’un tel outil offre une profondeur et une largeur bien plus grande qu’un outil à l’interface plus simple. Une autre stratégie consiste à établir un partenariat avec une personne qui connaît l’outil le plus complexe et qui sait comment réaliser des explorations de données jusqu’à ce que votre équipe interne ait acquis les compétences de base pour utiliser cet outil en toute confiance. C’est ce genre de transfert de compétence qui attire de nombreuses entreprises aux laboratoires d’analyse de données de Teradata.

Alors que les éditeurs des outils qui font la course en tête continuent d’ajouter régulièrement des fonctions d’exploration de données et des techniques sophistiquées, l’exploration de données est de plus en plus efficacement utilisée dans le cadre de nombreux processus en particulier dans les domaines de la commercialisation et de la production. L’amélioration continue des outils permet une meilleure exploitation des entrepôts de données, si bien que l’exploration de données attire un nombre croissant d’adeptes. Et ce nombre croissant d’utilisateurs aux idées diverses va faire que l’exploration de données deviendra de plus en plus une discipline qui renforcera la qualité de la prise de décision en entreprise.

Pour aller plus loin sur ce sujet, vous pouvez utilement consulter les liens suivants :
http://www.teradata.com/t/go.aspx/index.html?id=87116
http://www.decideo.fr/Faire-son-Data-Mining-directement-dans-son-Entrepot-de-Donnees-!-_a39.html



Dans la même rubrique :