Sébastien LAYER - ARCHITECTE SENIOR chez SENTELIS
Car indéniablement, le moteur de recherche a une place essentielle à jouer dans la « Logisphère » Big Data.
La recherche est une des fonctions incontournables de toute architecture Big Data. Elle vient consolider et extraire de la valeur à moindre effort de la masse des données hétérogènes du Data Lake dans lequel sont déversées en vrac les tonnes de données à analyser.
Pour constituer ce Data Lake de plusieurs centaines de téraoctets, les entreprises ont classiquement recours à une architecture Hadoop qui leur apporte performance et évolutivité à moindre coûts, pour peu qu’elles trouvent des solutions capables de s’y intégrer de façon transparente et efficace.
Qu’en est-il des moteurs de recherche ? Sont-ils aujourd’hui capables de tirer pleinement parti d’un cluster Hadoop ? Sont-ils capables d’utiliser le Data Lake pour construire et stocker leur index et utiliser des algorithmes MapReduce pour réaliser des recherches ultra-performantes ?
La réponse à toutes ces questions est sans appel : majoritairement NON !
La plupart des moteurs de recherche commercialisés actuellement ne sont ni capables d’utiliser du MapReduce ni capables d’héberger leur index dans le Data Lake.
Par conséquent, ils ne sont pas en mesure d’exploiter l’infrastructure de calcul du cluster Hadoop et nécessitent de fait d’investir dans une infrastructure dédiée dont le coût peut être très élevé, voir prohibitif, quand on sait que dans le cas de l’indexation données structurées, la taille de l’index peut être supérieure au volume des données elle-même.
Un talon d’Achille qui s’explique en partie par le manque de performance d’entrée/sortie offerte par le cluster Hadoop, ne permettant pas une indexation en quasi temps réel des données. Si la plupart des moteurs de recherche proposent des connecteurs HDFS pour s’interconnecter avec le cluster Hadoop, ces derniers ne sont d’aucune utilité en terme exploitation de l’espace de stockage et de la puissance de calcul du cluster Hadoop.
Les éditeurs de moteur de recherche doivent impérativement et rapidement trouver un moyen pour tirer parti des infrastructures Hadoop afin de limiter les coûts souvent très élevés de leurs solutions.
Les prochaines releases éditeurs seront à étudier avec soin, pour voir si des progrès probants dans l’intégration Hadoop ont été réalisés.
Sans quoi, ce n’est pas seulement le virage du Big Data que les éditeurs auront raté…
La recherche est une des fonctions incontournables de toute architecture Big Data. Elle vient consolider et extraire de la valeur à moindre effort de la masse des données hétérogènes du Data Lake dans lequel sont déversées en vrac les tonnes de données à analyser.
Pour constituer ce Data Lake de plusieurs centaines de téraoctets, les entreprises ont classiquement recours à une architecture Hadoop qui leur apporte performance et évolutivité à moindre coûts, pour peu qu’elles trouvent des solutions capables de s’y intégrer de façon transparente et efficace.
Qu’en est-il des moteurs de recherche ? Sont-ils aujourd’hui capables de tirer pleinement parti d’un cluster Hadoop ? Sont-ils capables d’utiliser le Data Lake pour construire et stocker leur index et utiliser des algorithmes MapReduce pour réaliser des recherches ultra-performantes ?
La réponse à toutes ces questions est sans appel : majoritairement NON !
La plupart des moteurs de recherche commercialisés actuellement ne sont ni capables d’utiliser du MapReduce ni capables d’héberger leur index dans le Data Lake.
Par conséquent, ils ne sont pas en mesure d’exploiter l’infrastructure de calcul du cluster Hadoop et nécessitent de fait d’investir dans une infrastructure dédiée dont le coût peut être très élevé, voir prohibitif, quand on sait que dans le cas de l’indexation données structurées, la taille de l’index peut être supérieure au volume des données elle-même.
Un talon d’Achille qui s’explique en partie par le manque de performance d’entrée/sortie offerte par le cluster Hadoop, ne permettant pas une indexation en quasi temps réel des données. Si la plupart des moteurs de recherche proposent des connecteurs HDFS pour s’interconnecter avec le cluster Hadoop, ces derniers ne sont d’aucune utilité en terme exploitation de l’espace de stockage et de la puissance de calcul du cluster Hadoop.
Les éditeurs de moteur de recherche doivent impérativement et rapidement trouver un moyen pour tirer parti des infrastructures Hadoop afin de limiter les coûts souvent très élevés de leurs solutions.
Les prochaines releases éditeurs seront à étudier avec soin, pour voir si des progrès probants dans l’intégration Hadoop ont été réalisés.
Sans quoi, ce n’est pas seulement le virage du Big Data que les éditeurs auront raté…
Autres articles
-
Entreprise 3.0 : vers une inéluctable « plateformisation » du Business & de l’IT
-
Data science, comment l’entreprise 3.0 doit-elle se préparer à son intégration en interne ?
-
Les data grids pour dévorer avec gourmandise l’overdose de Big Data
-
Sentelis annonce la disponibilité de smartfoundations for BigData