Quand Hadoop ouvre de nouvelles voies pour le Data Mining

Jim Walker, directeur Marketing produit chez Hortonworks

Les précurseurs de l’exploration des données ou data mining appartiennent à des secteurs ayant déjà une affinité avec le traitement des données, comme le secteur financier ou celui des assurances. Les commerçants ont rapidement suivi, convaincus de l’utilité du data mining afin de mieux gérer leurs stocks et les multiples facettes de la relation client. Aujourd’hui, les fournisseurs de services publics s’équipent de compteurs intelligents pour établir des prévisionnels de la consommation d’énergie et les professionnels de la santé utilisent des puces RFID associées aux badges nominatifs des médecins afin de savoir à quelle fréquence ils se lavent les mains lors de leur tournée pour lutter contre la propagation de maladies. Avec l’avènement de l’Internet des objets (IoT) et la transition actuelle d’une société analogique vers une société numérique, les sources de données qui en génèrent à chaque interaction se multiplient et le data mining pourrait bien devenir un service public, commun à toutes les entreprises.

Comment bien démarrer avec le Data Mining

Une entreprise de taille moyenne qui voudra tirer profit des données à sa disposition devra tout d’abord organiser la collecte et le stockage de ces données, cela va de soi. Selon l’application visée et les volumes d’information, il semble préférable de commencer à petite échelle. Les entreprises ont déjà pour beaucoup une forme quelconque d’entrepôt de données ou Enterprise Data Warehouse (EDW), dont elles se servent pour produire des rapports, des comparatifs de résultats trimestriels par exemple, à l’attention des membres de la direction et des décideurs.
La seconde étape, tout aussi importante sinon plus que l’infrastructure, est celle de l’architecture qui permettra de compiler les données et de les passer au crible. Dans un premier temps, seuls quelques groupes spécialisés, comme IBM, Microsoft ou SGI, proposaient une architecture de data mining, mais les solutions Open Source ont depuis gagné en maturité et en popularité. Le framework Apache Hadoop est le plus prometteur de tous.

Les avantages d’utiliser Hadoop

Selon une récente étude d’IDC pour Red Hat, intitulée « Trends in Enterprise Hadoop Deployments », 32 % des entreprises sondées ont déjà déployé la plateforme Hadoop et 31 % envisageaient de le faire dans les 12 mois qui suivent. Apache Hadoop est un composant essentiel de toute architecture de données moderne permettant aux entreprises de collecter autant de données qu’elles le souhaitent, de les stocker, les manipuler et les analyser comme elles l’entendent, et ce d’où que proviennent ces données, quels que soient leur ancienneté ou leur format.
Les entreprises qui proposent une architecture basée sur Hadoop à leurs clients y voient de nombreux avantages :
1) Modernisation : dans une démarche mise à jour de leur système pour pouvoir traiter des volumes de données toujours plus importants et bénéficier de méthodes avancées d’exploration des données, comme par exemple de web mining ou de text mining, beaucoup d’entreprises optent pour Hadoop afin de compléter en toute transparence leur structure EDW en place, plutôt que de devoir remplacer toute l’infrastructure.
2) Evolutivité linéaire : la technologie Hadoop est évolutive par nature. Pour traiter davantage de données, il suffit de mettre en service davantage de serveurs bon marché pour faire tourner les clusters. Et comme la technologie n’appelle pas de systèmes spécialisés, l’ajout de nouveaux serveurs revient peu cher. Or c’est le frein principal à l’adoption d’une stratégie de data mining : les entreprises surestiment l’investissement de départ d’un facteur dix.
3) Intégration : Hadoop est compatible avec les principaux programmes, y compris propriétaires, comme Microsoft Excel, logiciel qui permet de visualiser facilement les données explorées. La nature Open Source ouvre aussi la voie à un afflux constant de nouvelles fonctionnalités et permet de programmer dans n’importe quel langage sur le framework Hadoop.
4) « Une meilleure maîtrise du Big Data » : Hadoop a été développé à l’origine pour traiter des quantités massives de données non structurées et la technique de data mining mobilise peu de ressources, c’est donc une option naturelle pour les applications d’analyse du Big Data.

Soyez imaginatif dans votre production de données à analyser

La troisième étape consiste à ne pas se réfréner dans sa volonté de « cuisiner » les données, en écartant certaines, en ne les stockant pas toutes ou même en décidant de supprimer une part importante des données disponibles jugées a priori inutiles. Là encore, la capacité à évaluer et à interpréter les informations collectées conditionne l’efficacité d’un projet de data mining.
Traditionnellement, les commerçants se limitaient à l’analyse du panier des clients pour suivre la demande de consommation des produits et gérer les stocks en conséquence. A présent que de nouvelles données sont disponibles, de géolocalisation par exemple, via les GPS intégrés dans les smartphones, l’analyse du parcours de navigation des visiteurs devient possible. Les commerçants peuvent ainsi optimiser l’aménagement des rayons les plus fréquentés.
Autre exemple éloquent des usages possibles des nouvelles données disponibles : la gestion d’immeubles et de bâtiments. Auparavant, les données relatives au débit d’air du système de climatisation étaient utilisées pour maintenir une température ambiante optimale. A présent, dans une démarche d’économie d’énergie, il est possible de n’activer le système de climatisation que lorsque le salarié utilise sa carte d’accès pour entrer dans le bâtiment et d’éteindre automatiquement l’éclairage ou la climatisation aux horaires où les bureaux sont vides. Le même système peut s’appliquer au réglage idéal de la température souhaitée par l’occupant, permettant de concilier confort et efficacité.
Les applications de l’exploration des données sont multiples avec des potentiels inédits pour les entreprises qui adopteront une approche d’ouverture d’esprit et s’attacheront à traiter autant de données que possible avec le bon matériel et une architecture adaptée, comme Hadoop, pour mettre à jour les informations cachées.

Jim Walker est directeur Marketing produit chez Hortonworks
Développeur et professionnel du marketing, Jim a près de vingt ans d’expérience dans la création de produits et le développement de technologies innovantes pour des entreprises comme Symantec, IBM et Talend. Il a piloté la mise sur le marché de nombreux produits dans différents domaines, comme la prévention de la perte des données, la gestion des données de référence ou MDM (Master Data Management) et à présent l’analyse du Big Data. Chez Hortonworks, Jim est spécialiste des stratégies Open Source pour les entreprises et œuvre en faveur de l’accélération du développement et de l’adoption d’Apache Hadoop.

Autres articles

Quand Hadoop ouvre de nouvelles voies pour le Data Mining

Comment bien démarrer avec le Data Mining

Les avantages d’utiliser Hadoop

Soyez imaginatif dans votre production de données à analyser

Snowflake vs Hadoop : lequel choisir ?

Les évolutions de Hadoop en 2022

Teradata poursuit ses avancées dans le cloud grâce à l'élargissement de ses offres en analytique cloud et son nouveau partenaire Google Cloud

MapR lance le Programme Clarity à l’intention des clients de Cloudera et de Hortonworks avec une plateforme actualisée et un service d'évaluation des données gratuity

Cloudera et Hortonworks finalisent leur fusion

Snowflake renforce la collaboration cross-cloud pour les données d'entreprise et l'intelligence artificielle - 21/11/2024

Snowflake unifie les données transactionnelles et analytiques avec la disponibilité générale des Hybrid Tables - 21/11/2024

Neo4j dépasse les 200 millions de dollars de chiffre d’affaires et accélère son leadership dans le domaine de la GenAI grâce à sa technologie de graphes - 20/11/2024

Starburst annonce une capacité d’ingestion de données en streaming de 100 Gb/seconde depuis Apache Kafka vers les tables Apache Iceberg - 06/11/2024

Se préparer à l’avenir des moteurs de recherche avec l’approche vectorielle - 22/10/2024