Romain Picard, VP SEMEA chez Cloudera
L'importance des données n'a cessé de croître au cours des 20 dernières années. La mise en réseau des entreprises, tant en interne qu'en externe, l'émergence et la croissance des réseaux sociaux, ainsi que l’essor de la digitalisation ont été les premiers moteurs de ce développement. Les problématiques de stockage, de gestion, d'analyse et d'exploitation des données sont ainsi devenues de plus en plus prioritaires, non seulement pour les services informatiques, mais également pour les équipes dirigeantes, qui ont compris leur importance. Cette nécessité de collecte permanente a entraîné une croissance exponentielle des volumes, avec des architectures construites essentiellement autour de vastes lacs de données. Il était alors prédit que les entreprises auraient besoin de développer de grands lacs de données contenant quasiment l'ensemble de leurs ressources. Tout a changé avec l'essor du cloud et de ses services toujours plus fiables et plus puissants : les données ne sont plus collectées de façon centralisée mais de plus en plus éparpillées à des emplacements différents. Du fait de cette dispersion sur plusieurs sites (et parfois même entre entreprises), ces données sont désormais constamment en mouvement, que ce soit à l'intérieur ou à l'extérieur des data centers, ou même dans le cloud.
Structurées, non structurées et réparties… des données de différents types
Autre difficulté, différents types de données (structurées ou non structurées, issues de capteurs, de fournisseurs, de clients ou d'employés) peuvent se trouver dans chacun des clusters de données. Et à l'inverse, des données associées peuvent être réparties et stockées à des emplacements différents. Un commerçant peut par exemple stocker les grilles tarifaires de ses produits dans un data center à Bangkok et les informations de ses clients dans un second à Dublin. Par ailleurs, certaines formes de données provenant de capteurs IoT sont plus faciles à stocker sur un système cloud tel qu'Amazon Web Services (AWS) ou Microsoft Azure. Ce type de données pourrait également être conservé « sur site », c'est-à-dire localement, dans les systèmes de stockage internes à la société. Pour les analyses en temps réel, il est maintenant beaucoup plus facile de capturer et d'analyser ces informations dans le cloud que de tenter de les traiter entièrement depuis le data center des entreprises. En définitive, ces dernières ont besoin d'une plateforme de données complète intégrant toutes les données des centres et des environnements publics, privés, hybrides et multi-clouds. Cette plateforme serait constamment informée de l'emplacement, du statut et du type des données, et pourrait également proposer d'autres services, tels que des consignes de protection et de conformité concernant ces dernières, à différents endroits.
L'essence des données
D'un point de vue technique, le choix d'une plateforme appropriée représente une étape importante dans l'analyse des données collectées par les entreprises, mais cela est loin d'être suffisant.
Il est en effet important que l'entreprise sélectionne les experts appropriés et compétents pour examiner ses données à différentes étapes de leur cycle de traitement. Cela inclut les gestionnaires de données qui doivent pouvoir déterminer quelles sources sont fiables et qui doit disposer d'informations importantes sur chacune d’entre elles (par exemple, qui les a créées, qui les a modifiées, etc.). Ces gestionnaires doivent pouvoir appliquer les règles à tous les data center. Pour que les analyses basées sur les données entrantes aient du sens, il est impératif que la qualité de ces informations reste toujours élevée. Il en va évidemment de même pour toutes les étapes ultérieures au cours desquelles les analystes et data scientistes évalueront les données, les informations et les résultats obtenus, les placeront dans le bon contexte et les intègreront dans les référentiels sur la base desquels les décisions stratégiques seront prises. Pour réellement convertir les données de masse en informations exploitables, il est nécessaire qu’elles soient correctement traitées à toutes les étapes de l'analyse.
Il est en effet important que l'entreprise sélectionne les experts appropriés et compétents pour examiner ses données à différentes étapes de leur cycle de traitement. Cela inclut les gestionnaires de données qui doivent pouvoir déterminer quelles sources sont fiables et qui doit disposer d'informations importantes sur chacune d’entre elles (par exemple, qui les a créées, qui les a modifiées, etc.). Ces gestionnaires doivent pouvoir appliquer les règles à tous les data center. Pour que les analyses basées sur les données entrantes aient du sens, il est impératif que la qualité de ces informations reste toujours élevée. Il en va évidemment de même pour toutes les étapes ultérieures au cours desquelles les analystes et data scientistes évalueront les données, les informations et les résultats obtenus, les placeront dans le bon contexte et les intègreront dans les référentiels sur la base desquels les décisions stratégiques seront prises. Pour réellement convertir les données de masse en informations exploitables, il est nécessaire qu’elles soient correctement traitées à toutes les étapes de l'analyse.
Enterprise data cloud
Tout cela doit être pris en compte lors de la conception d'une plateforme Big Data, à savoir un enterprise data cloud. Les organisations en transformation digitale ont impérativement besoin d'un système analytique moderne qui couvre les environnements publics, privés, hybrides et multi-clouds. En effet, elles ont besoin de l'agilité, de la flexibilité et de la facilité d'utilisation fournies par les infrastructures cloud, mais souhaitent également exécuter des charges de traitement analytiques où bon leur semble, quel que soit le lieu de stockage de leurs données. Elles veulent également des architectures ouvertes et la possibilité de déplacer ces flux de travail vers différents environnements cloud (publics ou privés). Enfin, elles souhaitent avoir la possibilité d'exécuter plusieurs fonctions d'analyse sur le même ensemble de données dans un cadre de sécurité et de gouvernance commune garantissant la confidentialité des données et la conformité aux diverses réglementations. Tout ceci n'est pas un ensemble de fonctionnalités simplement utiles : il s'agit d'exigences fondamentales pour les entreprises qui souhaitent exploiter le potentiel des données.
A retenir : 4 caractéristiques essentielles d'un enterprise data cloud
1) Hybride et multi-cloud : pour fournir une véritable flexibilité aux entreprises, un enterprise data cloud doit garantir le même niveau de fonctionnalités sur site et hors site, en prenant en charge l'ensemble des principaux clouds publics, ainsi que privés.
2) Multifonction : un enterprise data cloud doit rationaliser les difficultés majeures en matière de données et d'analyse. Ainsi, la résolution de problèmes opérationnels concrets nécessite d’appliquer plusieurs fonctions analytiques aux mêmes données. Par exemple, les véhicules autonomes requièrent l'application simultanée d'algorithmes de machine learning et de lecture de données en continu.
3) Sécurité et gouvernance : un enterprise data cloud doit satisfaire des exigences de sécurité et de conformité, en répondant notamment aux besoins de confidentialité des données, de gouvernance, de migration et de gestion des métadonnées dans tous les environnements.
4) Ouvert : enfin, un enterprise data cloud doit être ouvert. Cette exigence implique bien sûr l'emploi de logiciels open source, mais également d'architectures de calcul ouvertes et de banques de données comme Amazon S3 et Azure Data Lake Storage. Les entreprises ne veulent pas dépendre d'un seul fournisseur et privilégient donc les plateformes, les intégrations et les écosystèmes de partenaires ouverts. En cas de problèmes techniques, elles peuvent ainsi se tourner vers la communauté open source, et non uniquement vers le fournisseur. Elles bénéficient également de cycles d'innovation plus courts et d'un net avantage concurrentiel.
2) Multifonction : un enterprise data cloud doit rationaliser les difficultés majeures en matière de données et d'analyse. Ainsi, la résolution de problèmes opérationnels concrets nécessite d’appliquer plusieurs fonctions analytiques aux mêmes données. Par exemple, les véhicules autonomes requièrent l'application simultanée d'algorithmes de machine learning et de lecture de données en continu.
3) Sécurité et gouvernance : un enterprise data cloud doit satisfaire des exigences de sécurité et de conformité, en répondant notamment aux besoins de confidentialité des données, de gouvernance, de migration et de gestion des métadonnées dans tous les environnements.
4) Ouvert : enfin, un enterprise data cloud doit être ouvert. Cette exigence implique bien sûr l'emploi de logiciels open source, mais également d'architectures de calcul ouvertes et de banques de données comme Amazon S3 et Azure Data Lake Storage. Les entreprises ne veulent pas dépendre d'un seul fournisseur et privilégient donc les plateformes, les intégrations et les écosystèmes de partenaires ouverts. En cas de problèmes techniques, elles peuvent ainsi se tourner vers la communauté open source, et non uniquement vers le fournisseur. Elles bénéficient également de cycles d'innovation plus courts et d'un net avantage concurrentiel.
A propos de l'auteur
Romain Picard est Vice Président Europe du Sud et Moyen Orient chez Cloudera. Il a rejoint la société en 2014 pour piloter le développement des opérations et a participé activement à l’ouverture de la filiale française, espagnole, italienne et, Dubai d’où sont pilotées les opérations pour le Moyen Orient. Ses différentes expériences dans les technologies de l’information, la stratégie et le management ainsi que sa passion pour la digitalisation, l’innovation, et ses convictions sur le role essentiel qu’apportent les données et l’Intelligence Artificielle dans la transformation digitale de notre société donne à Romain une forte connaissance de ces marchés et la met désormais au service du développement de Cloudera. Romain Picard a occupé auparavant différents rôles dans le secteur des technologies de l’information telles que SAP ou Infor Global Solution. Il est diplômé de L’Edhec Business School et de la Fachochschule Wiesbaden en Allemagne.