Principale préoccupation : la gouvernance des données
Photo AbsolutVision / Unsplash
Désolé Messieurs (et Mesdames) les DSI, mais la gouvernance du système d’information telle que vous avez tenté de la mettre en place, ne fonctionne pas ! La vision nombriliste des données ; limitée au système d’information central ; prise par l’angle des applications et des bases de données ; axée sur les caractéristiques techniques de la donnée… ne correspond pas aux besoins de la transformation numérique. La gouvernance des données doit être transférée aux métiers, ils y sont prêts, et en ont besoin. Au cours d’une récente table ronde à laquelle je participais, un haut responsable informatique d’une entreprise de télécommunications affirmait que « nous avons choisi de ne pas gouverner l’ensemble des données, pour ne pas déposséder les data owners ». Une vision qui me semble dépassée. Les plans d’une maison doivent concerner toutes les pièces, ou sinon cela ne sert pas à grand-chose. Imaginez-vous demander à l’architecte de dessiner les plans de votre maison, mais pas ceux de la chambre des enfants, de la cuisine et du garage ?
La cartographie des données, des processus, et des personnes, doit être globale (même si elle est réalisée par étape). Quant à la notion de « possession », je ne vois pas en quoi gouverner les données nécessiterait de « déposséder » les propriétaires des données.
Je constate bien souvent que la gouvernance arrive après, très tard, parfois trop tard. Un peu comme si vous demandiez à l’architecte de dessiner les plans de la maison a posteriori, une fois les murs montés.
La gouvernance des données doit s’organiser autour de trois axes : la connaissance (cartographie des données), la qualité des données, et la conformité (dont le respect du RGPD fait partie, mais n’est qu’une partie).
Ce n’est même plus une prédiction, c’est une certitude. En 2020, vous vous pencherez sur le sujet de la gouvernance des données !
Ne mettez pas la charrue avant les bœufs, rien ne sert de choisir un outil, en espérant qu’il fasse le travail à votre place. Mais une fois planifié votre projet gouvernance, vous pouvez regarder des outils comme DataGalaxy, Alation, ou Collibra. Attention, j’insiste, aucun de ces outils ne remplacera le travail de réflexion, de cartographie, de définition des règles de gestion, de qualité… ils sont des chambres d’enregistrement de ce travail collaboratif.
La cartographie des données, des processus, et des personnes, doit être globale (même si elle est réalisée par étape). Quant à la notion de « possession », je ne vois pas en quoi gouverner les données nécessiterait de « déposséder » les propriétaires des données.
Je constate bien souvent que la gouvernance arrive après, très tard, parfois trop tard. Un peu comme si vous demandiez à l’architecte de dessiner les plans de la maison a posteriori, une fois les murs montés.
La gouvernance des données doit s’organiser autour de trois axes : la connaissance (cartographie des données), la qualité des données, et la conformité (dont le respect du RGPD fait partie, mais n’est qu’une partie).
Ce n’est même plus une prédiction, c’est une certitude. En 2020, vous vous pencherez sur le sujet de la gouvernance des données !
Ne mettez pas la charrue avant les bœufs, rien ne sert de choisir un outil, en espérant qu’il fasse le travail à votre place. Mais une fois planifié votre projet gouvernance, vous pouvez regarder des outils comme DataGalaxy, Alation, ou Collibra. Attention, j’insiste, aucun de ces outils ne remplacera le travail de réflexion, de cartographie, de définition des règles de gestion, de qualité… ils sont des chambres d’enregistrement de ce travail collaboratif.
Le cloud computing se développe absolument partout
L’année dernière encore, je percevais beaucoup de scepticisme. Mais les barrières tombent une à une. Avec comme conséquence inattendue, l’abandon de Hadoop pour certains projets.
Hier encore, oser parler de cloud computing dans le domaine de la banque, de l’assurance, ou des données de santé, c’était au minimum recevoir une dose d’incompréhension, et parfois même une forme de mépris. En 2019, il semble que les perceptions aient largement évolué.
Même si des réticences parfaitement légitimes subsistent, par exemple sur la compatibilité entre le RGPD et le « cloud act » américain ; les entreprises n’hésitent plus à migrer des projets importants de science des données vers le cloud. Google BigQuery, Amazon et ses différentes offres, ou encore la solution « conçue pour le cloud » de Snowflake, les offres sont nombreuses, et elles respectent au minimum les mêmes niveaux de sécurité que vos centres de données internes.
Dans le même temps, les premiers projets de lacs de données, après un à deux ans de « remplissage », n’atteignent pas souvent leurs objectifs. Votre prestataire vous a vendu un data lake magique, un Monsieur-Propre de la donnée, grâce auquel toute data ingérée serait immédiatement disponible pour les utilisateurs ? Il suffirait de remplir le lac pour que par miracle les utilisateurs y trouvent les données dont ils ont besoin, prêtes à être utilisées ? Si vous y avez vraiment cru, vous ne manquez pas de naïveté ! Et c’est ce qui s’est passé dans de nombreuses banques, constructeurs automobiles, assurances…
Certains clients commencent donc à abandonner Hadoop, choisi pour son bas coût, mais dont la complexité et le faible niveau fonctionnel (sans parler de la lenteur), ne rendent finalement que peu de services aux utilisateurs.
L’année 2020 serait donc très certainement celle de la croissance des entrepôts et lacs de données en cloud, et celle d’une baisse de part de marché de Hadoop.
On parle aussi beaucoup des technologies de virtualisation de données. Elles semblent intéressantes, séduisent sur le papier, mais les retours d’expérience manquent encore. Virtualisation de certaines applications, certainement, comme par exemple pour créer un Master Data Management (MDM) virtuel. Mais virtualiser tout un système décisionnel, je n’y crois pas encore.
Hier encore, oser parler de cloud computing dans le domaine de la banque, de l’assurance, ou des données de santé, c’était au minimum recevoir une dose d’incompréhension, et parfois même une forme de mépris. En 2019, il semble que les perceptions aient largement évolué.
Même si des réticences parfaitement légitimes subsistent, par exemple sur la compatibilité entre le RGPD et le « cloud act » américain ; les entreprises n’hésitent plus à migrer des projets importants de science des données vers le cloud. Google BigQuery, Amazon et ses différentes offres, ou encore la solution « conçue pour le cloud » de Snowflake, les offres sont nombreuses, et elles respectent au minimum les mêmes niveaux de sécurité que vos centres de données internes.
Dans le même temps, les premiers projets de lacs de données, après un à deux ans de « remplissage », n’atteignent pas souvent leurs objectifs. Votre prestataire vous a vendu un data lake magique, un Monsieur-Propre de la donnée, grâce auquel toute data ingérée serait immédiatement disponible pour les utilisateurs ? Il suffirait de remplir le lac pour que par miracle les utilisateurs y trouvent les données dont ils ont besoin, prêtes à être utilisées ? Si vous y avez vraiment cru, vous ne manquez pas de naïveté ! Et c’est ce qui s’est passé dans de nombreuses banques, constructeurs automobiles, assurances…
Certains clients commencent donc à abandonner Hadoop, choisi pour son bas coût, mais dont la complexité et le faible niveau fonctionnel (sans parler de la lenteur), ne rendent finalement que peu de services aux utilisateurs.
L’année 2020 serait donc très certainement celle de la croissance des entrepôts et lacs de données en cloud, et celle d’une baisse de part de marché de Hadoop.
On parle aussi beaucoup des technologies de virtualisation de données. Elles semblent intéressantes, séduisent sur le papier, mais les retours d’expérience manquent encore. Virtualisation de certaines applications, certainement, comme par exemple pour créer un Master Data Management (MDM) virtuel. Mais virtualiser tout un système décisionnel, je n’y crois pas encore.
Les bases de données graphes sortent du bois
C’est peut-être le secret le mieux gardé des bases de données. La technologie des bases de données graphes permet de résoudre de très nombreux problèmes de relations, là où les bases relationnelles se focalisent sur les entités. Personnellement je les recommande à mes clients pour construire une première version de leur catalogue de données / personnes / processus dans le cadre d’un projet de gouvernance des données. Ou alors pour construire une application métier de vérification des conformités.
Mais les compétences manquent, et la faiblesse du marketing des éditeurs de ces solutions pèse sur l’ensemble du marché. Neo4j, une des principales solutions disponibles sur le marché, est en open source. Du coup, ses moyens sont limités, et je suis toujours étonné du peu de responsables informatiques qui connaissent ces technologies. Si vous êtes curieux de nouvelles technologies, regardez aussi du côté de Datastax, TigerGraph. Et pourquoi ne pas combiner graphes et cloud ? Neo4j est maintenant disponible en cloud via son offre Aura ; tout comme le sont également Datastax et TigerGraph.
Mais les compétences manquent, et la faiblesse du marketing des éditeurs de ces solutions pèse sur l’ensemble du marché. Neo4j, une des principales solutions disponibles sur le marché, est en open source. Du coup, ses moyens sont limités, et je suis toujours étonné du peu de responsables informatiques qui connaissent ces technologies. Si vous êtes curieux de nouvelles technologies, regardez aussi du côté de Datastax, TigerGraph. Et pourquoi ne pas combiner graphes et cloud ? Neo4j est maintenant disponible en cloud via son offre Aura ; tout comme le sont également Datastax et TigerGraph.
Moins de code, mais plus d’algorithmes et de compréhension des données
Tout le monde doit coder ! Cela semble la consigne ultime donnée par certains politiques. Les catalogues des organismes de formation débordent de cycles « full stack » dont vous ressortirez repus de code… alors que le code est en train de disparaitre.
D’ailleurs, au-delà de nos frontières européennes, il est désolant de voir comment en Inde, en Afrique, en Amérique du Sud, on laisse croire à des générations qu’il suffit d’apprendre à programmer pour vivre l’espoir occidental… Des cohortes de programmeurs qui seront remplacés dans quelques années par des outils comme Microsoft Deep Coder, ou n’importe quel autre outils « low code » ou « no code ».
En matière de science des données, la tendance est également à l’automatisation.
Elle se combine avec l’arrivée des « citizen data scientists » : il s’agit de personnes disposant de bonnes connaissances métier, de capacités d’analyse, mais sans doute pas de doctorat en mathématiques ou en statistiques.
Les outils émergent pour faciliter la vie de cet analyste de données. Il faut toujours savoir coder, mais de moins en moins. Regardez du côté de DataRobot, de Google Cloud AutoML ou de Microsoft. L’auto-machine learning (Auto-ML) est dans tous les plans de développement. Mais le meilleur auto-ML du monde ne fera que des prédictions erronées si vous lui fournissez des données erronées. Les algorithmes n’ont aucun biais, cela n’existe pas ! Ce sont les données qui sont biaisées, et donc ceux qui en nourrissent les algorithmes. Alors, plutôt que d’apprendre à coder, apprenez à sélectionner, comprendre, nettoyer les données. C’est la clef de l’apprentissage machine.
Allez, une dernière prédiction pour la route. J’évoquais dans mes prédictions précédentes, le décollage des applications de l’informatique quantique. Je crois que nous avons été servis, entre les annonces de Google qui dit avoir atteint la suprématie quantique, de IBM qui le conteste, et de Amazon qui a ouvert la semaine dernière son offre de cloud quantique ! Si vous souhaitez faire évoluer votre carrière avec un objectif à 10 ans, c’est en 2020 que vous devez vous former aux applications de l’informatique quantique.
Nous verrons l’an prochain, en toute transparence, si mes prévisions se révèlent justes. D’ici là, je vous souhaite à tous de très belles fêtes de fin d’année, et vous remercie pour votre fidélité, vous les dizaines de milliers de lecteurs qui se retrouvent chaque mois sur Decideo.
D’ailleurs, au-delà de nos frontières européennes, il est désolant de voir comment en Inde, en Afrique, en Amérique du Sud, on laisse croire à des générations qu’il suffit d’apprendre à programmer pour vivre l’espoir occidental… Des cohortes de programmeurs qui seront remplacés dans quelques années par des outils comme Microsoft Deep Coder, ou n’importe quel autre outils « low code » ou « no code ».
En matière de science des données, la tendance est également à l’automatisation.
Elle se combine avec l’arrivée des « citizen data scientists » : il s’agit de personnes disposant de bonnes connaissances métier, de capacités d’analyse, mais sans doute pas de doctorat en mathématiques ou en statistiques.
Les outils émergent pour faciliter la vie de cet analyste de données. Il faut toujours savoir coder, mais de moins en moins. Regardez du côté de DataRobot, de Google Cloud AutoML ou de Microsoft. L’auto-machine learning (Auto-ML) est dans tous les plans de développement. Mais le meilleur auto-ML du monde ne fera que des prédictions erronées si vous lui fournissez des données erronées. Les algorithmes n’ont aucun biais, cela n’existe pas ! Ce sont les données qui sont biaisées, et donc ceux qui en nourrissent les algorithmes. Alors, plutôt que d’apprendre à coder, apprenez à sélectionner, comprendre, nettoyer les données. C’est la clef de l’apprentissage machine.
Allez, une dernière prédiction pour la route. J’évoquais dans mes prédictions précédentes, le décollage des applications de l’informatique quantique. Je crois que nous avons été servis, entre les annonces de Google qui dit avoir atteint la suprématie quantique, de IBM qui le conteste, et de Amazon qui a ouvert la semaine dernière son offre de cloud quantique ! Si vous souhaitez faire évoluer votre carrière avec un objectif à 10 ans, c’est en 2020 que vous devez vous former aux applications de l’informatique quantique.
Nous verrons l’an prochain, en toute transparence, si mes prévisions se révèlent justes. D’ici là, je vous souhaite à tous de très belles fêtes de fin d’année, et vous remercie pour votre fidélité, vous les dizaines de milliers de lecteurs qui se retrouvent chaque mois sur Decideo.
Autres articles
-
ChatGPT nous donne ses 5 tendances du marché de la data en 2025
-
Se préparer à l’avenir des moteurs de recherche avec l’approche vectorielle
-
Le MIT a recensé 777 risques potentiels liés à l’IA dans une base de données partagée gratuitement
-
Gouverner l’intelligence artificielle : les données, leur qualité, leur conformité (4ème partie)
-
Gouverner l’intelligence artificielle : cadres réglementaires et normatifs (3ème partie)