Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Quand Hadoop ouvre de nouvelles voies pour le Data Mining


Rédigé par Jim WALKER, Hortonworks le 18 Décembre 2014

L’idée d’une analyse spécialisée de masses de données pour en extraire des renseignements utiles apparait dans les années 1960, dès le début des pratiques de collecte de données. Les volumes traités et la sophistication des requêtes n’ont ensuite cessé de progresser. La création de nouveaux savoirs à partir de données a évolué, de processus d’abord statiques à dynamiques et désormais proactifs. Mais la méthodologie Knowledge Discovery through Databases (KDD), autrement dit de « découverte de connaissance dans les bases de données », vise toujours à extraire des renseignements utiles en tirant profit des aspects de gestion des données que sont l’analyse typologique, la classification ou la régression.



Jim Walker, directeur Marketing produit chez Hortonworks
Jim Walker, directeur Marketing produit chez Hortonworks
Les précurseurs de l’exploration des données ou data mining appartiennent à des secteurs ayant déjà une affinité avec le traitement des données, comme le secteur financier ou celui des assurances. Les commerçants ont rapidement suivi, convaincus de l’utilité du data mining afin de mieux gérer leurs stocks et les multiples facettes de la relation client. Aujourd’hui, les fournisseurs de services publics s’équipent de compteurs intelligents pour établir des prévisionnels de la consommation d’énergie et les professionnels de la santé utilisent des puces RFID associées aux badges nominatifs des médecins afin de savoir à quelle fréquence ils se lavent les mains lors de leur tournée pour lutter contre la propagation de maladies. Avec l’avènement de l’Internet des objets (IoT) et la transition actuelle d’une société analogique vers une société numérique, les sources de données qui en génèrent à chaque interaction se multiplient et le data mining pourrait bien devenir un service public, commun à toutes les entreprises.

Comment bien démarrer avec le Data Mining

Une entreprise de taille moyenne qui voudra tirer profit des données à sa disposition devra tout d’abord organiser la collecte et le stockage de ces données, cela va de soi. Selon l’application visée et les volumes d’information, il semble préférable de commencer à petite échelle. Les entreprises ont déjà pour beaucoup une forme quelconque d’entrepôt de données ou Enterprise Data Warehouse (EDW), dont elles se servent pour produire des rapports, des comparatifs de résultats trimestriels par exemple, à l’attention des membres de la direction et des décideurs.
La seconde étape, tout aussi importante sinon plus que l’infrastructure, est celle de l’architecture qui permettra de compiler les données et de les passer au crible. Dans un premier temps, seuls quelques groupes spécialisés, comme IBM, Microsoft ou SGI, proposaient une architecture de data mining, mais les solutions Open Source ont depuis gagné en maturité et en popularité. Le framework Apache Hadoop est le plus prometteur de tous.

Les avantages d’utiliser Hadoop

Selon une récente étude d’IDC pour Red Hat, intitulée « Trends in Enterprise Hadoop Deployments », 32 % des entreprises sondées ont déjà déployé la plateforme Hadoop et 31 % envisageaient de le faire dans les 12 mois qui suivent. Apache Hadoop est un composant essentiel de toute architecture de données moderne permettant aux entreprises de collecter autant de données qu’elles le souhaitent, de les stocker, les manipuler et les analyser comme elles l’entendent, et ce d’où que proviennent ces données, quels que soient leur ancienneté ou leur format.
Les entreprises qui proposent une architecture basée sur Hadoop à leurs clients y voient de nombreux avantages :
1) Modernisation : dans une démarche mise à jour de leur système pour pouvoir traiter des volumes de données toujours plus importants et bénéficier de méthodes avancées d’exploration des données, comme par exemple de web mining ou de text mining, beaucoup d’entreprises optent pour Hadoop afin de compléter en toute transparence leur structure EDW en place, plutôt que de devoir remplacer toute l’infrastructure.
2) Evolutivité linéaire : la technologie Hadoop est évolutive par nature. Pour traiter davantage de données, il suffit de mettre en service davantage de serveurs bon marché pour faire tourner les clusters. Et comme la technologie n’appelle pas de systèmes spécialisés, l’ajout de nouveaux serveurs revient peu cher. Or c’est le frein principal à l’adoption d’une stratégie de data mining : les entreprises surestiment l’investissement de départ d’un facteur dix.
3) Intégration : Hadoop est compatible avec les principaux programmes, y compris propriétaires, comme Microsoft Excel, logiciel qui permet de visualiser facilement les données explorées. La nature Open Source ouvre aussi la voie à un afflux constant de nouvelles fonctionnalités et permet de programmer dans n’importe quel langage sur le framework Hadoop.
4) « Une meilleure maîtrise du Big Data » : Hadoop a été développé à l’origine pour traiter des quantités massives de données non structurées et la technique de data mining mobilise peu de ressources, c’est donc une option naturelle pour les applications d’analyse du Big Data.

Soyez imaginatif dans votre production de données à analyser

La troisième étape consiste à ne pas se réfréner dans sa volonté de « cuisiner » les données, en écartant certaines, en ne les stockant pas toutes ou même en décidant de supprimer une part importante des données disponibles jugées a priori inutiles. Là encore, la capacité à évaluer et à interpréter les informations collectées conditionne l’efficacité d’un projet de data mining.
Traditionnellement, les commerçants se limitaient à l’analyse du panier des clients pour suivre la demande de consommation des produits et gérer les stocks en conséquence. A présent que de nouvelles données sont disponibles, de géolocalisation par exemple, via les GPS intégrés dans les smartphones, l’analyse du parcours de navigation des visiteurs devient possible. Les commerçants peuvent ainsi optimiser l’aménagement des rayons les plus fréquentés.
Autre exemple éloquent des usages possibles des nouvelles données disponibles : la gestion d’immeubles et de bâtiments. Auparavant, les données relatives au débit d’air du système de climatisation étaient utilisées pour maintenir une température ambiante optimale. A présent, dans une démarche d’économie d’énergie, il est possible de n’activer le système de climatisation que lorsque le salarié utilise sa carte d’accès pour entrer dans le bâtiment et d’éteindre automatiquement l’éclairage ou la climatisation aux horaires où les bureaux sont vides. Le même système peut s’appliquer au réglage idéal de la température souhaitée par l’occupant, permettant de concilier confort et efficacité.
Les applications de l’exploration des données sont multiples avec des potentiels inédits pour les entreprises qui adopteront une approche d’ouverture d’esprit et s’attacheront à traiter autant de données que possible avec le bon matériel et une architecture adaptée, comme Hadoop, pour mettre à jour les informations cachées.

Jim Walker est directeur Marketing produit chez Hortonworks
Développeur et professionnel du marketing, Jim a près de vingt ans d’expérience dans la création de produits et le développement de technologies innovantes pour des entreprises comme Symantec, IBM et Talend. Il a piloté la mise sur le marché de nombreux produits dans différents domaines, comme la prévention de la perte des données, la gestion des données de référence ou MDM (Master Data Management) et à présent l’analyse du Big Data. Chez Hortonworks, Jim est spécialiste des stratégies Open Source pour les entreprises et œuvre en faveur de l’accélération du développement et de l’adoption d’Apache Hadoop.





Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store