Pourquoi proposer aujourd’hui du Big Data ?
On assiste aujourd’hui à l’explosion du numérique : essor de l’e-commerce, démocratisation de la connectivité mobile, course à la précision dans les domaines scientifiques (recherche, météorologie…), multiplication des objets connectés... Résultat : on collecte des quantités gigantesques de données ; depuis 2010, elles ont augmenté pour 64 % des entreprises, d’après une étude du cabinet Markess. À vrai dire, l’utilisation du Big Data s’est aussi imposée comme une nécessité interne, pour la gestion des logs clients d’OVH devenus colossaux.
Cela pose un défi de taille : il ne s’agit plus seulement de stocker ces volumes de données, il s’agit également de les traiter et les analyser en temps réel, voire avant même que l’information soit générée. Or, les outils d’analyse, comme les méthodes et les experts capables de donner du sens à ces informations, manquent encore.
De ce constat est né le Big Data : un ensemble de technologies, méthodes, solutions et infrastructures qui répondent aux enjeux des industriels : distribution, industrie biomédicale, gros sites de e-commerce, plateformes géantes de jeu en ligne… Le Big Data devrait, par exemple, révolutionner le CRM (gestion de la relation client), en offrant aux directions marketing de nouveaux et puissants outils. Capables d’identifier des opportunités commerciales en combinant l’étude des données internes et des commentaires sur les réseaux sociaux, ils vont accélérer la segmentation marketing et l’analyse prédictive.
Expliquez-nous votre stratégie.
Pour permettre aux clients de faire face à ces quantités de données et d’y accéder, il faut d’abord proposer des plateformes adaptées, évolutives et puissantes, avec des accès disques ultra rapides et des outils de traitement, lecture et écriture adaptés. Le tout en assurant un niveau de sécurité et de confidentialité fort. Chez OVH, nous appliquons non pas la règle des 4 V qui définit habituellement le Big Data, mais la règle des 5 V : variété, valeur et volume de données hébergées, ainsi que vitesse de traitement, auxquels s’ajoute la vivacité de notre support.
Dans un second temps, les infrastructures Big Data seront complétées par des solutions de BI (business intelligence). Paramétrées par des experts, celles-ci répondront, le plus rapidement possible, aux priorités des entreprises et des nouveaux métiers de l’analytics et des médias sociaux.
La première étape, c’est donc de fournir des plateformes de stockage. Par quelles technologies sont-elles soutenues ?
Notre infrastructure Big Data est bâtie sur un socle de serveurs puissants, assemblés en clusters. Avec un espace disque de 2x2 To et une mémoire RAM de 64 à 128 Go, ils assurent fiabilité et puissance. Ils sont donc tout indiqués pour supporter du stockage massif.
Nous avons fait le choix d’y installer la distribution Hadoop. Ce framework, reconnu pour son efficacité dans la gestion intensive de données, est utilisé par les plus grandes compagnies. Hadoop dispose en outre d’une forte communauté open source, ce qui nous permet de contribuer à son développement, innover et l’améliorer, de manière collégiale.
En termes de sécurité et de confidentialité des données stockées, quelles garanties apportez-vous ?
Les clusters sont disposés au sein de baies virtuelles : ils disposent ainsi de leurs propres IP et leur propre réseau local virtuel, ce qui assure la confidentialité des informations. Nous les hébergeons dans nos datacentres de Roubaix et, bientôt, de Gravelines. Des centres de données hautement sécurisés et dont la capacité d’accueil, couplée à notre force de production, nous met à l’abri de toute pénurie en matière de stockage. Pas moins de 150 000 serveurs sont ainsi hébergés chez OVH, connectés à notre réseau privé dont la capacité atteint à ce jour 2,2 Tbps. De plus, l’infrastructure est totalement redondée : la fiabilité de la connectivité est donc assurée.
Pour le client, y a-t-il d’autres avantages ?
OVH est l’un des rares prestataires capables de délivrer un cluster physique aussi puissant en moins d’une heure. À l’instar des serveurs dédiés, pour lesquels nous avons acquis un savoir-faire historique, le processus de commande, de livraison et de monitoring de Big Data est industrialisé. C’est l’une des grandes forces d’OVH.
Les machines Hadoop sont déjà assemblées en clusters, et les différents nodes [les nœuds des noyaux, sur lesquels sont stockées les données, NDLR] eux-mêmes préconfigurés : le client dispose donc d’une solution préinstallée. L’objectif est de lui simplifier la tâche et d’assurer une flexibilité maximale : il est possible de rajouter des serveurs et du stockage rapidement et facilement.
En vérité, certains clients n’avaient pas attendu la sortie de l’offre pour bâtir leur propre infrastructure Big Data à partir de nos serveurs dédiés. Ce sont donc eux que nous avons choisis comme testeurs bêta, afin de nous assurer que la configuration que l’on avait mise en place correspondait à des cas d’usage réels.
Quelles sont les évolutions à venir dans la gamme ?
À terme, un panel important de distributions sera disponible. Nous ajouterons en effet prochainement MongoDB, une alternative à Hadoop que nous utilisons déjà pour notre offre CDN et qui garantit aussi la réplication constante des données. Surtout, nous proposerons bientôt une solution de « Hadoop as a Service », c’est-à-dire du Big Data dans le Cloud. Ce service sera donc facturé à l’heure, au gigaoctet de stockage utilisé, sur le modèle de « pay as you go ».
Et en quoi consistera exactement la deuxième étape ?
Nous irons encore plus loin en proposant des offres packagées. Nous allons en effet nous associer avec des partenaires de services, qui pourront proposer des solutions analytiques ou prédictives et conseiller nos clients pour l’exploitation et l’administration de leurs données. Le client sera ainsi accompagné d’un bout à l’autre de sa démarche Big Data.
On assiste aujourd’hui à l’explosion du numérique : essor de l’e-commerce, démocratisation de la connectivité mobile, course à la précision dans les domaines scientifiques (recherche, météorologie…), multiplication des objets connectés... Résultat : on collecte des quantités gigantesques de données ; depuis 2010, elles ont augmenté pour 64 % des entreprises, d’après une étude du cabinet Markess. À vrai dire, l’utilisation du Big Data s’est aussi imposée comme une nécessité interne, pour la gestion des logs clients d’OVH devenus colossaux.
Cela pose un défi de taille : il ne s’agit plus seulement de stocker ces volumes de données, il s’agit également de les traiter et les analyser en temps réel, voire avant même que l’information soit générée. Or, les outils d’analyse, comme les méthodes et les experts capables de donner du sens à ces informations, manquent encore.
De ce constat est né le Big Data : un ensemble de technologies, méthodes, solutions et infrastructures qui répondent aux enjeux des industriels : distribution, industrie biomédicale, gros sites de e-commerce, plateformes géantes de jeu en ligne… Le Big Data devrait, par exemple, révolutionner le CRM (gestion de la relation client), en offrant aux directions marketing de nouveaux et puissants outils. Capables d’identifier des opportunités commerciales en combinant l’étude des données internes et des commentaires sur les réseaux sociaux, ils vont accélérer la segmentation marketing et l’analyse prédictive.
Expliquez-nous votre stratégie.
Pour permettre aux clients de faire face à ces quantités de données et d’y accéder, il faut d’abord proposer des plateformes adaptées, évolutives et puissantes, avec des accès disques ultra rapides et des outils de traitement, lecture et écriture adaptés. Le tout en assurant un niveau de sécurité et de confidentialité fort. Chez OVH, nous appliquons non pas la règle des 4 V qui définit habituellement le Big Data, mais la règle des 5 V : variété, valeur et volume de données hébergées, ainsi que vitesse de traitement, auxquels s’ajoute la vivacité de notre support.
Dans un second temps, les infrastructures Big Data seront complétées par des solutions de BI (business intelligence). Paramétrées par des experts, celles-ci répondront, le plus rapidement possible, aux priorités des entreprises et des nouveaux métiers de l’analytics et des médias sociaux.
La première étape, c’est donc de fournir des plateformes de stockage. Par quelles technologies sont-elles soutenues ?
Notre infrastructure Big Data est bâtie sur un socle de serveurs puissants, assemblés en clusters. Avec un espace disque de 2x2 To et une mémoire RAM de 64 à 128 Go, ils assurent fiabilité et puissance. Ils sont donc tout indiqués pour supporter du stockage massif.
Nous avons fait le choix d’y installer la distribution Hadoop. Ce framework, reconnu pour son efficacité dans la gestion intensive de données, est utilisé par les plus grandes compagnies. Hadoop dispose en outre d’une forte communauté open source, ce qui nous permet de contribuer à son développement, innover et l’améliorer, de manière collégiale.
En termes de sécurité et de confidentialité des données stockées, quelles garanties apportez-vous ?
Les clusters sont disposés au sein de baies virtuelles : ils disposent ainsi de leurs propres IP et leur propre réseau local virtuel, ce qui assure la confidentialité des informations. Nous les hébergeons dans nos datacentres de Roubaix et, bientôt, de Gravelines. Des centres de données hautement sécurisés et dont la capacité d’accueil, couplée à notre force de production, nous met à l’abri de toute pénurie en matière de stockage. Pas moins de 150 000 serveurs sont ainsi hébergés chez OVH, connectés à notre réseau privé dont la capacité atteint à ce jour 2,2 Tbps. De plus, l’infrastructure est totalement redondée : la fiabilité de la connectivité est donc assurée.
Pour le client, y a-t-il d’autres avantages ?
OVH est l’un des rares prestataires capables de délivrer un cluster physique aussi puissant en moins d’une heure. À l’instar des serveurs dédiés, pour lesquels nous avons acquis un savoir-faire historique, le processus de commande, de livraison et de monitoring de Big Data est industrialisé. C’est l’une des grandes forces d’OVH.
Les machines Hadoop sont déjà assemblées en clusters, et les différents nodes [les nœuds des noyaux, sur lesquels sont stockées les données, NDLR] eux-mêmes préconfigurés : le client dispose donc d’une solution préinstallée. L’objectif est de lui simplifier la tâche et d’assurer une flexibilité maximale : il est possible de rajouter des serveurs et du stockage rapidement et facilement.
En vérité, certains clients n’avaient pas attendu la sortie de l’offre pour bâtir leur propre infrastructure Big Data à partir de nos serveurs dédiés. Ce sont donc eux que nous avons choisis comme testeurs bêta, afin de nous assurer que la configuration que l’on avait mise en place correspondait à des cas d’usage réels.
Quelles sont les évolutions à venir dans la gamme ?
À terme, un panel important de distributions sera disponible. Nous ajouterons en effet prochainement MongoDB, une alternative à Hadoop que nous utilisons déjà pour notre offre CDN et qui garantit aussi la réplication constante des données. Surtout, nous proposerons bientôt une solution de « Hadoop as a Service », c’est-à-dire du Big Data dans le Cloud. Ce service sera donc facturé à l’heure, au gigaoctet de stockage utilisé, sur le modèle de « pay as you go ».
Et en quoi consistera exactement la deuxième étape ?
Nous irons encore plus loin en proposant des offres packagées. Nous allons en effet nous associer avec des partenaires de services, qui pourront proposer des solutions analytiques ou prédictives et conseiller nos clients pour l’exploitation et l’administration de leurs données. Le client sera ainsi accompagné d’un bout à l’autre de sa démarche Big Data.