Microsoft Research Faculty Summit 2011 - Copyright Microsoft Corporation
A l’occasion de la conférence annuelle organisée par Microsoft pour le monde de la recherche, le Microsoft Research Faculty Summit, dont l’ambition est de travailler sur un horizon d’une vingtaine d’années, l’éditeur a présenté à Redmond les prémices d’un nouveau projet dédié à l’analyse de gros volumes de données scientifiques, Daytona. Cet événement, présenté par Tony Hey, Vice-Président de Microsoft Research Connections, vise à « bâtir les fondations de la collaboration future entre Microsoft, les universités, les entreprises et le secteur public ». Des fondations bien dotées puisque Microsoft a annoncé à cette occasion la distribution cette année de 1,4 millions de dollars à huit jeunes chercheurs à travers le monde.
Daytona, un projet "big data" sur Windows Azure
Tony Hey, corporate vice president of Microsoft Research Connections - Copyright Microsoft Corporation
En matière de « big data », un des enjeux actuels de la recherche dans les domaines de la santé, de l’éducation, des sciences de l’environnement, Microsoft souhaite mettre en avant son offre de cloud computing, Windows Azure. Les chercheurs ont besoin d’analyser de gros volumes de données, de détecter des événements dans ces données et de déterminer des tendances. Sur Windows Azure, ce n’est pas SQL Server qui est mis en avant pour ces besoins analytiques liés à la recherche, mais un nouveau projet, Daytona, qui s’appuie sur un développement « MapReduce » réalisé par Microsoft pour Windows Azure. MapReduce est un framework de développement informatique, introduit par Google, dans lequel sont effectués des calculs parallèles, et souvent distribués, de données potentiellement très volumineuses (> 1 téraoctet).
Si vous voulez tester Daytona, vous devrez passer par quatre étapes :
- développer vos algorithmes d’analyse de données. Daytona vous proposera des exemples de librairies d’algorithmes d’analyse, ainsi qu’un guide « pas à pas » pour développer vos propres librairies ;
- charger sur Windows Azure vos données et vos librairies analytiques ;
- installer Daytona sur votre compte Windows Azure, définir le nombre de machines virtuelles que vous lui affectez ;
- intégrer vos librairies d’analyse dans une application client, ou utiliser l’application modèle fournie par Microsoft à titre d’exemple, et… lancer l’application !
Une fois ces étapes franchies, Daytona déploie son exécutable MapReduce sur l’ensemble des machines virtuelles que vous lui avez affecté, et découpera votre jeu de données en morceaux dont le traitement va être parallélisé.
Si nécessaire, il regroupe en fin de traitement les données obtenues.
Le framework MapReduce pour Windows Azure est librement téléchargeable sur le site de Microsoft Research
Pour en savoir plus sur le projet Daytona, suivez la page : http://research.microsoft.com/en-us/projects/azure/daytona.aspx
Si vous voulez tester Daytona, vous devrez passer par quatre étapes :
- développer vos algorithmes d’analyse de données. Daytona vous proposera des exemples de librairies d’algorithmes d’analyse, ainsi qu’un guide « pas à pas » pour développer vos propres librairies ;
- charger sur Windows Azure vos données et vos librairies analytiques ;
- installer Daytona sur votre compte Windows Azure, définir le nombre de machines virtuelles que vous lui affectez ;
- intégrer vos librairies d’analyse dans une application client, ou utiliser l’application modèle fournie par Microsoft à titre d’exemple, et… lancer l’application !
Une fois ces étapes franchies, Daytona déploie son exécutable MapReduce sur l’ensemble des machines virtuelles que vous lui avez affecté, et découpera votre jeu de données en morceaux dont le traitement va être parallélisé.
Si nécessaire, il regroupe en fin de traitement les données obtenues.
Le framework MapReduce pour Windows Azure est librement téléchargeable sur le site de Microsoft Research
Pour en savoir plus sur le projet Daytona, suivez la page : http://research.microsoft.com/en-us/projects/azure/daytona.aspx
Excel comme outil de recherche et de visualisation de gros volumes de données
This browser does not support the video element.
D’autres projets de recherche parlent de Big Data autour du cloud Microsoft Azure. A suivre par exemple le projet Excel DataScope qui développe des outils autour d’Excel, interface familière, pour accéder à de gros volumes de données sur Windows Azure. Ces nouvelles librairies proposent des algorithmes de recherche et d’analyse, mais malheureusement pas de véritable nouveauté en matière de représentation graphique qui reste le parent pauvre d’Excel.
Comme bien souvent dans les projets de recherche, Daytona mettra du temps avant d’être transformé éventuellement en une solution commercialisée. Peut-être ne le sera-t-il d’ailleurs jamais et les développements s’arrêteront une fois le projet bien avancé. C’est sans doute l’aspect le plus frustrant de ces projets de très haut niveau. Une fois techniquement proches de leur but, si l’environnement économique et la stratégie de l’entreprise ne sont pas en phase avec ce développement technique, le projet est abandonné, même si plusieurs utilisateurs avaient misé sur lui.
Daytona, tout comme Excel DataScope doivent donc être vus comme tels, des projets de recherche sur lesquels vous pouvez tester de nouvelles analyses ; mais en conservant en mémoire que tant que le projet n’est pas industrialisé, il peut être stoppé à tout moment.
Comme bien souvent dans les projets de recherche, Daytona mettra du temps avant d’être transformé éventuellement en une solution commercialisée. Peut-être ne le sera-t-il d’ailleurs jamais et les développements s’arrêteront une fois le projet bien avancé. C’est sans doute l’aspect le plus frustrant de ces projets de très haut niveau. Une fois techniquement proches de leur but, si l’environnement économique et la stratégie de l’entreprise ne sont pas en phase avec ce développement technique, le projet est abandonné, même si plusieurs utilisateurs avaient misé sur lui.
Daytona, tout comme Excel DataScope doivent donc être vus comme tels, des projets de recherche sur lesquels vous pouvez tester de nouvelles analyses ; mais en conservant en mémoire que tant que le projet n’est pas industrialisé, il peut être stoppé à tout moment.