Seul l’apprentissage automatique permettra à de nombreuses entreprises de valoriser leurs mégadonnées

Michel Bruley

Les grandes entreprises peuvent aujourd’hui se doter de tous les moyens nécessaires pour appréhender leur environnement, toutes les technologies pour intégrer, stocker et analyser les données ont atteint leur niveau de maturité, ou presque pour ce qui concerne le traitement des mégadonnées. Le seul gros bémol en matière d’infrastructure se situe au niveau du nombre de matériels et de logiciels nécessaires, encore aujourd’hui il faut recourir à beaucoup de moyens et de fournisseurs différents selon son niveau d’ambition. Par exemple une base de données relationnelle classique est rapidement insuffisante pour aller au-delà du traitement des données structurées et commencer à traiter des données semi-structurées, il faut pour cela la plupart du temps mettre en œuvre des moyens spécialisés plus performants de type MPP. Enfin pour traiter des mégadonnées non structurées, on ne peut échapper à l’utilisation de nouveaux outils comme Hadoop par exemple.

Utiliser des outils comme Hadoop, c’est pour beaucoup d’entreprise sortir de leur petit monde d’informatiques propriétaires, où des fournisseurs, des analystes vous cornaquent, pour aborder le monde libre et extrêmement foisonnant de l’open source. Au final, le système d’information à mettre en œuvre pour traiter des mégadonnées est très important, complexe, onéreux et de plus nécessite de faire appel à des spécialistes pointus en informatique, en analyse de données ou mégadonnées, et dans les métiers de l’entreprise. Il faut non seulement les mobiliser, mais arriver à les faire travailler ensemble. Lors de la création de son équipe, il faut particulièrement faire attention à ne pas succomber au mythe du « data scientist », mouton à cinq pattes du monde analytique, qui serait à même de répondre à lui seul, ou plus ou moins, aux besoins des entreprises en matière de fouille de mégadonnées.

Depuis déjà quelques années de nombreuses entreprises ont su tirer de la valeur de leurs données, et pour certaines construire ex nihilo des activités très rentables. Ces pionniers ont montré la voie, mais l’avenir n’est certainement pas dans l’imitation servile de leurs approches. En effet, toutes les entreprises ne pourront pas constituer des équipes pléthoriques d’analystes pour explorer systématiquement leurs données et tenter de comprendre les tendances, de créer des catégories, de détecter des similitudes ou de faire des prédictions à partir du passé ... ; l’avenir est dans l’apprentissage automatique pour mettre en œuvre des milliers de fonctionnalités sur des milliards d'enregistrements.

L'apprentissage automatique est fondé sur un ensemble de techniques pour tirer parti des données et découvrir automatiquement les relations entre les variables d'un système (entrées, sorties et cachées) à partir d'échantillons directs du système. La valorisation des mégadonnées par les entreprises, se fera demain à partir d’un ensemble d’algorithmes d’apprentissage supervisé et non supervisé (corrélation, classification, statistiques, manipulation de document, N-gramme, calcul d’histogramme, traitement du langage naturel…), permettant d’automatiser leur exploration, d’éviter les réductions de dimension qui peuvent conduire à la perte d'information, pour au final fournir un aperçu complet des données, et par exemple repérer les valeurs aberrantes qui sont souvent la source de fructueuses découvertes.

Pour aller plus loin sur le sujet de l’apprentissage automatique et de l’intelligence économique, vous pouvez utilement consulter les présentations suivantes :
Big Data & Machine learning - http://www.decideo.fr/bruley/docs/9___machine_learning_v0.pptx
Intelligence économique - http://www.decideo.fr/bruley/docs/Intelligence_Economique_-_wiki.pdf

Seul l’apprentissage automatique permettra à de nombreuses entreprises de valoriser leurs mégadonnées

{{date}} {{title}}