La Fondation Linux, l'organisation à but non lucratif qui favorise l'innovation de masse grâce à l'open source, annonce que MLflow, une plateforme open source de machine learning (ML) créée par Databricks, rejoint la Fondation Linux. Depuis son introduction à la conférence Spark + AI Summit il y a deux ans, MLflow connait un engagement communautaire impressionnant de la part de plus de 200 contributeurs et compte plus de 2 millions de téléchargements par mois, soit un taux de croissance annuel multiplié par 4. La Fondation Linux est un consortium indépendant de tout fournisseur selon un modèle de gouvernance ouvert pour étendre encore davantage l'adoption et les contributions au projet MLflow.
« L'augmentation constante de l'engagement communautaire montre la volonté des équipes data à construire la plateforme de machine learning du futur. Le taux d'adoption démontre la nécessité d'une approche open source pour standardiser le cycle de vie du machine learning, » déclare Michael Dolan, vice-président des programmes stratégiques de la Fondation. « Notre expérience de travail avec les plus grands projets open source au niveau mondial montre qu'un modèle de gouvernance ouvert permet une innovation et une adoption plus rapides grâce à une large contribution de l'industrie et une recherche de consensus ».
Databricks a créé MLflow en réponse au processus compliqué de développement des modèles de ML. Traditionnellement, le processus de conception, formation, réglage, déploiement et gestion des modèles de ML était extrêmement difficile pour les data scientists et les développeurs. Contrairement au développement traditionnel de logiciels qui ne concerne que les versions de code, les modèles ML doivent également suivre les versions des jeux de données, des paramètres des modèles et des algorithmes, ce qui crée un ensemble de variables exponentiellement plus important à suivre et à gérer. En outre, le ML est très itératif et repose sur une étroite collaboration entre les équipes data et les équipes chargées des applications. MLflow permet d'éviter que ce processus ne devienne trop lourd en fournissant une plateforme pour gérer le cycle de développement du ML de bout en bout, de la préparation des données au déploiement en production, en passant par le suivi des expériences, le packaging du code en suites reproductibles, le partage des modèles et la collaboration.
Matei Zaharia, le créateur à l’origine d'Apache Spark et de MLflow, a partagé la nouvelle avec la communauté data lors de sa keynote à la conférence Spark + AI Summit :
« MLflow est devenu le standard open source pour les plateformes de machine learning grâce à la communauté de contributeurs, qui se compose de centaines d'ingénieurs issus de plus d'une centaine d'entreprises. Le machine learning transforme toutes les grandes industries et influence des milliards de décisions dans le retail, la finance et la santé. Notre décision de contribuer à MLflow pour la Fondation Linux est une invitation à la communauté du machine learning à intégrer les bonnes pratiques d'ingénierie ML au sein d’une plate-forme standard ouverte, collaborative et de bout en bout. »
Parmi les organisations présentant leur expérience de MLflow au Spark+ AI Summit, citons : Starbucks, Exxonmobil, T-Mobile et Accenture. De nouvelles fonctionnalités qui continuent à simplifier MLflow et le cycle de vie de ML sont également annoncées aujourd'hui, notamment l'autologging pour des expérimentations, ainsi que de nouvelles fonctionnalités de gestion et de déploiement des modèles dans le registre des modèles MLflow.
« L'augmentation constante de l'engagement communautaire montre la volonté des équipes data à construire la plateforme de machine learning du futur. Le taux d'adoption démontre la nécessité d'une approche open source pour standardiser le cycle de vie du machine learning, » déclare Michael Dolan, vice-président des programmes stratégiques de la Fondation. « Notre expérience de travail avec les plus grands projets open source au niveau mondial montre qu'un modèle de gouvernance ouvert permet une innovation et une adoption plus rapides grâce à une large contribution de l'industrie et une recherche de consensus ».
Databricks a créé MLflow en réponse au processus compliqué de développement des modèles de ML. Traditionnellement, le processus de conception, formation, réglage, déploiement et gestion des modèles de ML était extrêmement difficile pour les data scientists et les développeurs. Contrairement au développement traditionnel de logiciels qui ne concerne que les versions de code, les modèles ML doivent également suivre les versions des jeux de données, des paramètres des modèles et des algorithmes, ce qui crée un ensemble de variables exponentiellement plus important à suivre et à gérer. En outre, le ML est très itératif et repose sur une étroite collaboration entre les équipes data et les équipes chargées des applications. MLflow permet d'éviter que ce processus ne devienne trop lourd en fournissant une plateforme pour gérer le cycle de développement du ML de bout en bout, de la préparation des données au déploiement en production, en passant par le suivi des expériences, le packaging du code en suites reproductibles, le partage des modèles et la collaboration.
Matei Zaharia, le créateur à l’origine d'Apache Spark et de MLflow, a partagé la nouvelle avec la communauté data lors de sa keynote à la conférence Spark + AI Summit :
« MLflow est devenu le standard open source pour les plateformes de machine learning grâce à la communauté de contributeurs, qui se compose de centaines d'ingénieurs issus de plus d'une centaine d'entreprises. Le machine learning transforme toutes les grandes industries et influence des milliards de décisions dans le retail, la finance et la santé. Notre décision de contribuer à MLflow pour la Fondation Linux est une invitation à la communauté du machine learning à intégrer les bonnes pratiques d'ingénierie ML au sein d’une plate-forme standard ouverte, collaborative et de bout en bout. »
Parmi les organisations présentant leur expérience de MLflow au Spark+ AI Summit, citons : Starbucks, Exxonmobil, T-Mobile et Accenture. De nouvelles fonctionnalités qui continuent à simplifier MLflow et le cycle de vie de ML sont également annoncées aujourd'hui, notamment l'autologging pour des expérimentations, ainsi que de nouvelles fonctionnalités de gestion et de déploiement des modèles dans le registre des modèles MLflow.
Autres articles
-
Qlik améliore l’intégration avec SAP, Databricks et Snowflake et favorise la création de valeur grâce à l’IA
-
Databricks lève 10 milliards de dollars dans une levée de fonds en Série J, avec une valorisation de 62 milliards de dollars
-
La nouvelle plateforme Confluent pour Apache Flink facilite la gestion et la sécurisation du traitement de flux haute performance on-premises
-
Databricks renforce son partenariat avec AWS pour offrir des capacités avancées d'IA générative
-
Databricks renforce son partenariat avec AWS pour offrir des fonctionnalités avancées d'IA générative