Approches Analytiques de pointe, Data Mining ou Fouille de Données

Système d'Information Décisionnel - Le blog de Michel Bruley

Rubriques :

My Blog

Twitter

« Précédent | Accueil | Suivant »

Approches Analytiques de pointe, Data Mining ou Fouille de Données

Le data mining, la fouille de données ou toutes les approches analytiques de pointe représentent les formes les plus ambitieuses de l’Informatique Décisionnelle. Les techniques sous jacentes sont issues des Statistiques ou de l’Intelligence Artificielle, et certaines comme les Réseaux de Neurones, les Arbres de Décision, les Réseaux Bayésiens ou la Logique Inductive furent développées il y a plusieurs décennies dans des contextes très différents. Attention il ne s’agit pas de techniques informatiques, mais de processus de recherche automatique d’information dans un grand volume de données en mettant en œuvre toute technique appropriée.

Le postulat fondamental de ces approches est que dans toute base de données enregistrant les événements d’un processus économique, les données ne sont pas distribuées au hasard. Bien que ces données soient simplement constatées, le plus souvent collectées à des fins purement opérationnelles, on suppose qu’elles ont été générées par une réalité en grande partie déterministe, mais selon des processus que généralement on ne connaît pas. Les approches analytiques cherchent à mettre en évidence, décrire et permettre de reconstruire les effets de ces processus. Cette action d’identification des effets d’un processus à partir de données se caractérise par la construction d’un modèle, ensemble de règles, d’équations, de formules qui rendent compte de la distribution des données dans la base.

Construire méthodiquement un modèle des données dont on dispose sur un objet de gestion, est un saut important sur le chemin de la connaissance et de la décision. Au lieu de gigaoctets de données brutes, le décideur dispose alors d’une vue interprétable de son sujet d’étude. Mais attention de ne pas se laisser piéger par la métaphore liée à l’expression data mining qui suggère que les données (data) ne seraient qu’un amoncellement de débris, que l’on creuse (mining) à la recherche de la pépite. Elle fait croire que le data mining rejette une grande proportion des données disponibles, pour ne conserver qu’une petite partie particulièrement significative. Or ce n’est pas exactement le cas, dans l’élaboration d’un modèle toutes les données sont prises en compte et traitées sensiblement sur un pied d’égalité. Le modèle est construit en fonction des régularités (patterns) de l’ensemble des données. Le succès de l’analyse se mesure à sa capacité à détecter les régularités fortement significatives.

D’autre part pour certains, toutes ces approches analytiques de pointe, data mining ou fouille de données ne seraient que de nouveaux noms branchés de la vénérable statistique. La réponse est : oui, mais …. Oui, car si vous faisons abstraction des techniques mises en œuvre, l’objectif est le même : élaboration et interprétation de modèles de la réalité construits à partir d’une description partielle de cette réalité par des données. Mais …, car la statistique traditionnelle ne répond pas complètement aux attentes des utilisateurs potentiels. Le progrès le plus attendu des nouvelles approches c’est l’industrialisation des analyses, alors que la statistique reste une activité artisanale, réservée à un petit nombre de spécialistes traitant avec beaucoup de soin un petit volume de données très structurées, et mettant en œuvre un savoir faire peu automatisé. Or l’ambition des nouvelles approches c’est d’amener les biens faits de la statistique à tous les responsables sans qu’ils aient constamment recours à des statisticiens.

Cependant il ne faut pas se cacher, que la réalité est souvent compliqué, voire complexe, et que les approches analytiques peuvent être délicate à mettre en œuvre et leurs résultats parfois ambigus ou incertains, même si de nombreuses entreprises utilisent ces techniques avec beaucoup de succès dans toutes les fonctions de l’entreprise et en particulier dans les domaines de la relation client, de la logistique, de la qualité.

Pour aller plus loin sur ce sujet vous pouvez utilement consulter mes articles ci-dessous :

5 mythes sur le data mining

En analyse de données comme en cuisine, la réussite se joue en grande partie avec les ingrédients
Fouille de données : une démarche en cinq étapes

Fouille de données : les biens faits des approches en laboratoire

Faire son data mining directement dans son entrepôt de données

Fouille de données & PMML : vers une extraction de données plus rapide, plus facile et moins coûteuse

Comment choisir un outil d’exploration de données

Rédigé par Michel Bruley le Lundi 9 Mars 2009 à 09:09 | Permalien | Commentaires

{0}

> A LIRE EN CE MOMENT SUR DECIDEO

Profil

Michel Bruley

Liste de liens

Propos sur l'histoire

Religion compilation

Textes de famille

Propos sur d'autres sujets

Système d'information décisionnel - compilation n°1

Mes contributions à M@batim

Une partie de mes contributions à DECIDEO

Mon compte Twitter

Mon compte Scribd

Mon compte Slides Share

My blog in English

Profil linkedin de Michel Bruley

Dernières notes

Politique : instrumentalisation, faiblesse, interventionnisme … 26/01/2025

COM : à propos de cette mascarade de communication 28/10/2024

Religion : Dieu, les manipulateurs et le hasard 02/09/2024

Histoire : compilation de mes réflexions sur des événements du passé 01/07/2024

Technologie : compilation de mes derniers articles 20/04/2024

Les lois de Golub concernant les grands projets, vont s’appliquer à l’IA 19/03/2024

Meilleurs vœux aux parents pour 2024 10/01/2024

Les propos d’un expert au sujet des bugs de Femme 1.0 16/09/2023

Les hommes vus par les femmes : dur, dur pour nous les mecs … 24/07/2023

Comité Mondial de Normalisation : La Première Norme 29/05/2023

Galerie

L’intelligence artificielle : faisons vite mais faisons bien

Informatica présente ses nouvelles fonctionnalités d'intégration dans le Cloud et de gestion des données de référence alimentées par l'IA

Abeille Assurances s’appuie sur la location intelligence et l'enrichissement des données de Precisely pour gérer les risques climatiques et améliorer l'expérience client

DDN réinvente l’infrastructure des données pour l’IA avec ses nouvelles solutions présentées

Hyland améliore son Content Innovation Cloud avec l’IA afin d’aider les entreprises à exploiter la pleine puissance de leurs données non structurées

Celonis met à la disposition des clients de Microsoft Fabric sa Process Intelligence pour permettre une accélération de l'IA à grande échelle

Une nouvelle solution Nextlane pour faire face aux exigences du RGPD dans le secteur automobile

À la découverte de la prochaine génération de disques durs

Precisely acquiert DTS Software, ajoutant le logiciel d'optimisation du stockage mainframe à sa gamme de produits d'intégrité des données

Fivetran étend l’intégration de Microsoft Fabric avec plus de 700 connecteurs, facilitant la création de data lakes optimisés pour l’IA