Photo m0851 / Unsplash
Après avoir travaillé plusieurs mois en collaboration, IBM et Trifacta ont révélé fin juin leur partenariat. Il semble que IBM ait confié à Trifacta le développement d’un outil de préparation des données, connecté à l’écosystème IBM. La « data preparation », dont Trifacta revendique la paternité, est un nouveau marché. Les « ETL » sont des outils techniques, destinés aux équipes informatiques, et à l’industrialisation des projets. Les outils de préparation de données sont plus orientés utilisateurs, plus agiles, mais aussi moins rigoureux. Ils prennent une place entre Excel et les ETL.
Comme le souligne très bien Trifacta, la différence entre deux projets de science des données n’est pas vraiment dans les algorithmes. La plupart sont disponibles en open source et ouverts à tous. Mais plutôt dans les données qui alimenteront ces algorithmes. Et ces données doivent être nettoyées, préparées, et référencées.
Les utilisateurs avancés ont pris l’habitude d’utiliser ces nouveaux outils de préparation. Mais ils ne sont pas sans défauts ! Plutôt que de supprimer les silos de données, ils ont plutôt tendance à en recréer de nouveaux. Chaque jeu de données, nettoyé et préparé, est sauvegardé par son utilisateur, qui créé ainsi un nouveau silo, bien souvent non référencé et non partagé…
Trifacta propose de nommer, étiqueter, et partager ces jeux de données dérivés. Et dans le cadre du partenariat avec IBM, l’idée est de combiner ces nouveaux jeux de données avec l’outil de gouvernance IBM Watson Data Catalog.
Que deviendra ce partenariat par la suite ? Impossible à deviner. Mais si IBM y voit une opportunité d’affaires intéressante, il n’hésitera pas à racheter Trifacta afin de s’assurer la maitrise et le futur de cette solution de préparation des données.
Comme le souligne très bien Trifacta, la différence entre deux projets de science des données n’est pas vraiment dans les algorithmes. La plupart sont disponibles en open source et ouverts à tous. Mais plutôt dans les données qui alimenteront ces algorithmes. Et ces données doivent être nettoyées, préparées, et référencées.
Les utilisateurs avancés ont pris l’habitude d’utiliser ces nouveaux outils de préparation. Mais ils ne sont pas sans défauts ! Plutôt que de supprimer les silos de données, ils ont plutôt tendance à en recréer de nouveaux. Chaque jeu de données, nettoyé et préparé, est sauvegardé par son utilisateur, qui créé ainsi un nouveau silo, bien souvent non référencé et non partagé…
Trifacta propose de nommer, étiqueter, et partager ces jeux de données dérivés. Et dans le cadre du partenariat avec IBM, l’idée est de combiner ces nouveaux jeux de données avec l’outil de gouvernance IBM Watson Data Catalog.
Que deviendra ce partenariat par la suite ? Impossible à deviner. Mais si IBM y voit une opportunité d’affaires intéressante, il n’hésitera pas à racheter Trifacta afin de s’assurer la maitrise et le futur de cette solution de préparation des données.
Autres articles
-
IBM choisi comme partenaire officiel de la Scuderia Ferrari HP pour l'engagement des fans et l'analyse des données
-
IBM présente Granite 3.0 : des modèles d'IA performants conçus pour les entreprises
-
L’alliance entre l'innovation d'une start-up et l’industrialisation d’une grande entreprise : IBM met le modèle « Large » de Mistral à disposition sur watsonx
-
Étude IBM : Alors que les dirigeants se précipitent vers l'adoption de l'IA générative des questions relatives aux ressources et à la gouvernance persistent
-
Podcast : IBM se lance à son tour dans le data mesh et les data products