La Data Science pour répondre aux besoins de l'architecture de données moderne


Rédigé par Vinay Shukla, Hortonworks le 10 Décembre 2017

Nos clients misent de plus en plus sur les outils de la data science et du Machine Learning pour résoudre leurs problèmes complexes d’analytique prédictive, et notamment l’anticipation des désabonnements, la maintenance prédictive, la classification des images ou encore la mise en correspondance d’entités.



Vinay Shukla, Directeur des Produits Data Science, Hortonworks
Tout le monde voudrait être capable de prédire l’avenir, mais seuls quelques-uns savent exploiter correctement la data science pour l’analytique prédictive. Pour étendre la portée de la data science, il faut que l’architecture de données moderne ou MDA (Modern Data Architecture) satisfasse les 4 conditions suivantes :

• Permettre aux applications d’utiliser es prédictions et de devenir plus intelligentes
• Porter l’analytique prédictive à la périphérie de l’écosystème IOT
• Gagner en simplicité, en précision et en rapidité de déploiement et d’administration
• Supporter tout le cycle de vie de la data science
Le schéma ci-après illustre la position qu’occupe la data science au sein de la MDA.

LES APPLICATIONS DATA SMART

L’utilisateur final consomme les données, l’analytique et les résultats d’analyse de la data science via des applications centrées sur les données (ou applis). Dans leur grande majorité, ces applications n’exploitent pas pour le moment les technologies de Data Science, de Machine Learning ou d’analyse prédictive. Des applications de nouvelle génération sont actuellement développées pour le grand public et les entreprises, capables d’exploiter la data science et l’analytique prédictive pour produire des insights contextuels et guider les utilisateurs vers les étapes à suivre. On appelle ces applications des « Applications Data Smart ».

Il n’est pas simple de programmer de telles applis Data Smart. Le développeur doit non seulement coder la logique applicative traditionnelle mais aussi la logique nécessaire à l’analytique prédictive. Ces applications smart data rencontrent également des problèmes liés à la désambiguïsation des entités, à l’analyse de la qualité des données et à la détection d’anomalies. Et comme les plateformes de données actuelles ne proposent pas encore ces fonctionnalités, c’est au développeur des applications de résoudre ces problèmes.

Ce type de problème est récurrent et c’est pourquoi par le passé les frameworks comme JavaEE & Spring Framework ont évolué pour permettre de régler ces problèmes applicatifs courants. A présent, il faut un framework applicatif de nouvelle génération pour simplifier le codage des applications Data Smart. Nous voyons déjà les prémices de cette évolution. Salesforce Einstein, par exemple, aide les applications du Cloud Salesforce à devenir plus intelligentes. Mais cette fonctionnalité fait encore défaut dans l’open source.

PLUS D’INTELLIGENCE EN PERIPHERIE

L’Internet des objets se développe rapidement et la taille estimée du marché est tout simplement gigantesque. IDC estime à 1.290 milliards de dollars les dépenses IT globales dans des actifs IoT d’ici à 2020. L’Edge Intelligence, qui vise à décentraliser la puissance de calcul informatique à la périphérie du réseau, promet de révéler des insights et des prédictions là où l’information est la plus utile et plus rapidement, sans pour autant nécessiter une connexion réseau persistante jusqu’à un système de traitement des données centralisé. Il faut pouvoir délivrer les prédictions en périphérie. Mais les modèles prédictifs eux n’ont pas besoin d’être créés en périphérie. La formation des modèles en périphérie est beaucoup trop lente pour le moment, si bien que nous devons créer plus rapidement de meilleurs modèles dans le datacenter. Il faut ensuite pouvoir déployer ces modèles en périphérie là où ils produiront des prédictions même s’ils sont déconnectés du datacenter. Souvent, les modèles se dégradent avec le temps et dérivent. Pour pallier ces problèmes, il faut que la périphérie du réseau puisse rendre compte de la performance des modèles et demander de nouveaux modèles chaque fois que la performance tombe en deçà d’un certain seuil.

UNE ADMINISTRATION PLUS SIMPLE, RAPIDE ET PRECISE

Les entreprises collectent toujours plus de données et elles exécutent des algorithmes de deep learning & machine learning qui consomment beaucoup de puissance de calcul, à l’échelle d’un cluster informatique qui ne cesse de grandir. Ceci oblige à se doter d’une plateforme Big-Data et Big Compute mature et sophistiquée. Cette plateforme doit pouvoir tirer profit des avancées technologiques du hardware et les rendre disponibles en totale transparence aux applications Data Smart et d’analyse du Big Data. Il faut pour cela que les avancées matérielles, GPU, FPGA, RDMA, etc. soient mises à disposition du framework de calcul avec un degré approprié de partage des ressources et une sémantique d’isolement. YARN supporte déjà les processeurs graphiques GPU avec étiquettes des nœuds (node-labels) mais cette fonctionnalité est amenée à évoluer à l’avenir pour proposer un contrôle plus fin.

Mettre au point, déboguer et tracer un système distribué demeurent des tâches difficiles. Alors que la data science appliquée au big data se généralise, il est important que les systèmes distribués deviennent plus faciles à gérer, à déboguer, à tracer et à mettre au point.

UNE PLATEFORME COMPLETE DE DATA SCIENCE

La data science est un sport d’équipe. Les Data Scientists collaborent, ils explorent les volumes de données d’entreprises, livrent un combat à la data, et déploient des techniques de Machine Learning tout en se tenant informés des évolutions des techniques de Machine Learning et des nouvelles bibliothèques disponibles. Une plateforme complète de Data Science doit supporter le cycle de vie complet de la data science. Les data scientists doivent avoir le choix d’utiliser leur notebook préféré, Jupyter, Zeppelin ou Rstudio, de même pour les langages & frameworks. La plateforme doit idéalement faciliter la collaboration et aider le data scientist à s’aligner davantage sur les pratiques modernes d’ingénierie logicielle, de revue de code, d’intégration continue et de déploiement.

L’aspect de déploiement et d’administration des modèles vient compléter la boucle de data science et le framework doit supporter le déploiement de modèle, la gestion des versions, les tests A/B, Champion/Challenger et proposer des méthodes standard de promotion et d’utilisation des modèles.

Les techniques de Deep Learning (DL) font souvent partie des priorités et c’est un art que de sélectionner le bon framework DL et les bons problèmes à résoudre avec le DL. La plateforme doit recommander le choix des bons frameworks DL à utiliser et proposer une meilleure intégration des ressources matérielles pour optimiser la durée de formation et les performances.



Dans la même rubrique :