Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Big Data : les moteurs de recherche ont-ils raté le virage ?


Rédigé par Sébastien LAYER, SENTELIS le 19 Octobre 2013

Pour ceux qui suivent régulièrement l’actualité du Big Data ou assistent aux salons et forums sur le sujet (et ils ne manquent pas !), il est fréquent d’assister à des retours clients qui (re)mettent au premier plan, et à raison, les moteurs de recherche. Une brique technologique pas aussi présente dans les architectures des systèmes d’information qu’on pourrait le croire et dont le big data pourrait en redonner les lettres de noblesse.



Sébastien LAYER - ARCHITECTE SENIOR chez SENTELIS
Sébastien LAYER - ARCHITECTE SENIOR chez SENTELIS
Car indéniablement, le moteur de recherche a une place essentielle à jouer dans la « Logisphère » Big Data.

La recherche est une des fonctions incontournables de toute architecture Big Data. Elle vient consolider et extraire de la valeur à moindre effort de la masse des données hétérogènes du Data Lake dans lequel sont déversées en vrac les tonnes de données à analyser.

Pour constituer ce Data Lake de plusieurs centaines de téraoctets, les entreprises ont classiquement recours à une architecture Hadoop qui leur apporte performance et évolutivité à moindre coûts, pour peu qu’elles trouvent des solutions capables de s’y intégrer de façon transparente et efficace.

Qu’en est-il des moteurs de recherche ? Sont-ils aujourd’hui capables de tirer pleinement parti d’un cluster Hadoop ? Sont-ils capables d’utiliser le Data Lake pour construire et stocker leur index et utiliser des algorithmes MapReduce pour réaliser des recherches ultra-performantes ?

La réponse à toutes ces questions est sans appel : majoritairement NON !

La plupart des moteurs de recherche commercialisés actuellement ne sont ni capables d’utiliser du MapReduce ni capables d’héberger leur index dans le Data Lake.

Par conséquent, ils ne sont pas en mesure d’exploiter l’infrastructure de calcul du cluster Hadoop et nécessitent de fait d’investir dans une infrastructure dédiée dont le coût peut être très élevé, voir prohibitif, quand on sait que dans le cas de l’indexation données structurées, la taille de l’index peut être supérieure au volume des données elle-même.

Un talon d’Achille qui s’explique en partie par le manque de performance d’entrée/sortie offerte par le cluster Hadoop, ne permettant pas une indexation en quasi temps réel des données. Si la plupart des moteurs de recherche proposent des connecteurs HDFS pour s’interconnecter avec le cluster Hadoop, ces derniers ne sont d’aucune utilité en terme exploitation de l’espace de stockage et de la puissance de calcul du cluster Hadoop.

Les éditeurs de moteur de recherche doivent impérativement et rapidement trouver un moyen pour tirer parti des infrastructures Hadoop afin de limiter les coûts souvent très élevés de leurs solutions.

Les prochaines releases éditeurs seront à étudier avec soin, pour voir si des progrès probants dans l’intégration Hadoop ont été réalisés.

Sans quoi, ce n’est pas seulement le virage du Big Data que les éditeurs auront raté…




Commentaires

1.Posté par Joseph Glorieux le 21/10/2013 11:29
Merci pour ce post qui exprime bien la situation actuelle pour les éditeurs traditionnels.

Il faut cependant souligner qu'une solution comme Solr fonctionne déjà avec hadoop même si ce n'est pas parfait.

Mais je m'éloigne de ma remarque, à savoir : en dehors de la faisabilité, quels sont les usages attendus d'un moteur de recherche sur hadoop? Autant sur une base NoSQL transactionnel je comprend, mais sur un cluster dédié aux traitements, j'ai l'impression que ce type de besoin est marginal.

2.Posté par Sébastien Layer le 21/10/2013 22:40
Joseph, je me permet de répondre à ton questionnement.

A l'heure actuelle, le moteur de recherche est méconnu et plutôt identifié sur des usages de l'Entreprise Search.

Quand une entreprise souhaite motoriser une vue 360° via un moteur de recherche, elle doit réaliser une travail important d'intégration du moteur de recherche avec chacune des sources.

Maintenant, si on casse le modèle d'architecture standard du SI, que l'on considère que le cluster Big Data contient une réplique alimentée au fil de l'eau de toutes les données du SI transactionnel traditionnel en support du développement de nouveaux usages de traitements massifiés de l'information, le moteur de recherche va détenir une place centrale.
Les usages actuels pourront s'exécuter sur cette nouvelle source d'information fédérée permettant ainsi de faire diminuer les couts d'intégration historique. Mais avant tout, le MDR portera des fonctions d'analyse exploratoire de l'information brute permettant aux usagers du cluster de mieux cerner le périmètre des données contenues

My 2 cents

Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store