Miser sur le DataOps pour les projets de données


Rédigé par Guy Eden, BMC Software le 11 Avril 2024

Selon IDC, le marché des logiciels d’analyse de données et des services cloud a atteint 90 milliards de dollars en 2021 et devrait plus que doubler d’ici 2026, avec les investissements croissants de nombreuses entreprises dans l’intelligence artificielle (IA) et le machine learning (ML), ainsi que dans des projets ambitieux touchant à l’exploitation des données. Quel que soit le secteur, les entreprises s’évertuent à améliorer leurs méthodes de collecte de données et à trouver des moyens innovants d’en tirer des analyses utiles à leur activité. Ces efforts représentent des investissements importants en temps et en argent.



Guy Eden, vice-président de la gestion des produits chez BMC Software
Malgré des niveaux d’investissement élevés, ces projets aboutissent souvent à des résultats insatisfaisants. Une enquête récente de McKinsey sur les principaux programmes d’analyse avancée a révélé que les entreprises consacrent 80 % de leur temps à des tâches répétitives offrant peu de valeur ajoutée, telles que la préparation des données. De fait, il s’agit là d’un problème dont seuls 10 % des entreprises déclarent ne pas souffrir.

Comprendre le taux d’échec malgré l’augmentation des investissements sur ces projets
De nombreux facteurs doivent être pris en compte, mais les plus souvent cités sont la complexité des projets et le manque de compétences. Le monde entier souffre d’une carence en experts en analyses des données, mais aussi en ingénieurs spécialisés dans ce domaine et autres architectes cloud. Les entreprises déclarent également que leurs projets échouent fréquemment parce qu’elles ont du mal à les rendre opérationnels à grande échelle en production.

Pour faire face à ces problèmes courants, une nouvelle approche est apparue : le DataOps. Ce nom désigne l’application de l’ingénierie agile et des meilleures pratiques DevOps au domaine de la gestion des données pour aider les entreprises à transformer rapidement de nouvelles idées en outils finalisés entièrement opérationnels capables d’exploiter la valeur commerciale des données. Les outils et méthodologies DataOps peuvent aider les entreprises à rentabiliser efficacement leur investissement dans les données. Mais cela passera forcément par une capacité d’opérationnaliser les données en question.

Difficultés posées par l’orchestration des données
La plupart des workflows des pipelines de données sont extrêmement complexes et s’exécutent à travers de nombreuses applications, sources de données et technologies d’infrastructure disparates. Bien que l’objectif soit d’automatiser ces processus en production, la réalité est que sans une puissante plateforme d’orchestration des workflows, la réalisation de ces projets au niveau de l’entreprise peut s’avérer coûteuse, avec une part importante de tâches manuelles très chronophages.

Les projets d’orchestration de workflows de données comportent quatre étapes principales :

• L’ingestion comprend la collecte de données à partir de sources traditionnelles telles que les solutions de planification des ressources d’entreprise (ERP) et de gestion des ressources clients (CRM), les outils financiers et de nombreux autres systèmes d’enregistrement, en plus des données provenant de sources modernes telles que les appareils, les capteurs de l’Internet des objets (IoT) et les réseaux sociaux.

• Le stockage accroît la complexité, avec les divers outils et technologies constituant le pipeline de données. L’endroit où sont stockées les données et la méthode utilisée dépendent de la persistance, de la valeur relative des ensembles de données, de la fréquence de mise à jour des modèles d’analyse et de la vitesse à laquelle les données peuvent être acheminées vers les outils de traitement.

• Le traitement soulève bon nombre de problèmes similaires et de questions : « Quelle est la quantité de traitement pur nécessaire ? », « Ce traitement doit-il être constant ou variable ? », « Est-il programmé, dicté par des événements ou adapté à chaque cas de figure ? » ou encore « Comment minimiser les coûts ? » pour ne citer que quelques exemples.

• La fourniture d’analyses suppose un transfert des données vers des systèmes analytiques. Cette étape est également complexe, avec un nombre de plus en plus important d’outils occupant le « dernier kilomètre » du pipeline de données.

Avec l’arrivée régulière de nouvelles technologies touchant aux données et au cloud, les entreprises doivent constamment réévaluer leurs couches technologiques. Ce phénomène engendre une pression et un turn-over parfois difficiles à gérer, les entreprises étant contraintes d’adopter systématiquement toute nouvelle technologie. En effet, chaque fois qu’un nouveau service d’analyse de données tarde à être mis en production, cela entraîne un manque à gagner et une carence de résultats exploitables.

Passer en production à grande échelle
La bonne exécution des workflows n’est jamais le fruit du hasard. Une plateforme d’orchestration efficace peut aider à optimiser les pipelines de données et à obtenir les analyses qui les plus utiles. Dans cette optique, huit fonctionnalités sont essentielles aux plateformes d’orchestration des workflows :

1. Capacité de gestion des workflows hétérogènes. Les entreprises évoluent rapidement vers le cloud et auront bientôt des workflows répartis dans une combinaison complexe d’environnements hybrides. Dans la plupart des cas, il leur sera indispensable de prendre en charge l’ordinateur central et les systèmes distribués dans le data center et dans plusieurs clouds privés et/ou publics. Si votre plateforme d’orchestration n’est pas en mesure de gérer la diversité des applications et l’infrastructure sous-jacente, votre stratégie d’automatisation sera fragmentée, avec de nombreux silos qui nécessiteront des intégrations manuelles chronophages pour gérer les dépendances de workflow entre les plateformes.

2. Gestion des accords de niveau de service (SLA). La bonne exécution des workflows, qui vont des modèles de machine learning prédisant les risques aux clôtures comptables et au suivi des paiements, est toujours soumise à des accords de niveau de service parfois régis par les réglementations en vigueur. Toute plateforme d’orchestration doit être en mesure de recenser les échecs d’exécution de tâches et les retards dans les workflows complexes et d’en notifier son gestionnaire. Elle doit également être capable de faire le lien entre des dysfonctionnements et leur impact commercial.

3. Gestion des erreurs et notifications. En production, même les workflows les mieux conçus peuvent connaître des défaillances ou des retards. Il est essentiel que les équipes concernées soient immédiatement informées afin d’éviter de longues discussions en salle de crise pour identifier qui est censé intervenir. Votre plateforme d’orchestration doit envoyer automatiquement des notifications aux bonnes équipes en temps et en heure.

4. Corrections automatisées. En cas de défaillance dans les workflows, les équipes prennent des mesures correctives, telles que le redémarrage d’une tâche, la suppression d’un fichier ou le vidage d’un cache ou d’une table temporaire. Votre plateforme d’orchestration doit permettre aux ingénieurs de configurer ces actions afin qu’elles se déclenchent automatiquement chaque fois que survient un problème connu.

5. Visibilité de bout en bout. Les workflows exécutent des processus interconnectés sur des piles technologiques hybrides. Une plateforme d’orchestration doit être en mesure de montrer clairement le déroulé des workflows. Ceci est essentiel pour aider les entreprises à comprendre les relations entre les applications et les processus auxquels elles sont associées. C’est également important pour la gestion du changement. Il est en effet essentiel de savoir ce qui se passe en amont et en aval d’un processus lorsqu’une modification doit être apportée.

6. Expérience utilisateur en libre-service pour différents rôles. L’orchestration des workflows est un sport d’équipe avec de nombreux intervenants, comme les spécialistes des données, les développeurs, les responsables des opérations, ou encore les responsables des processus. Chaque équipe a ses cas d’utilisation et ses préférences en matière d’outils d’orchestration. La plateforme déployée doit donc offrir l’interface et l’expérience utilisateur adaptées pour que tous puissent utiliser ces technologies dans de bonnes conditions.

7. Normes de production. L’exécution de workflows en production nécessite le respect de certaines normes, ce qui signifie l’utilisation de conventions de nommage correctes, de modèles de traitement des erreurs, etc. Votre plateforme d’orchestration doit disposer d’un mécanisme qui offre un moyen très simple de définir ces normes et d’en expliquer l’application aux collaborateurs qui créent des workflows.

8. Compatibilité DevOps. Comme les entreprises adoptent des pratiques DevOps telles que les pipelines d’intégration et de déploiement continus (CI/CD), le développement de workflows, leur modification et même le déploiement de l’infrastructure, votre plateforme d’orchestration doit être adaptée aux pratiques les plus récentes.

Le besoin de données est en hausse et n’est pas près de diminuer. Il est donc essentiel de se doter de la capacité de stocker, de traiter et d’opérationnaliser ces données. Les pratiques DataOps associées à de puissantes capacités d’orchestration peuvent aider les entreprises à orchestrer leurs pipelines de données, à optimiser leurs processus d’acheminement de ces données et à améliorer leurs résultats commerciaux.

1 384 mots –




Dans la même rubrique :