Pentaho, société du groupe Hitachi, lance un nouveau projet Big Data type « alimenter un data lake », qui aide les entreprises à concevoir un processus d’intégration moderne, flexible, évolutif et reproductible, visant à injecter des Big Data dans des data lakes Hadoop. Les spécialistes de la gestion des données peuvent désormais se libérer des contraintes que représente la préparation des données et se consacrer davantage à des projets à plus forte valeur ajoutée.
D’après Ventana Research, les projets Big Data obligent les entreprises à passer 46 % de leur temps à la préparation des données et 52 % à la vérification de la qualité et de la cohérence des données. En suivant le projet type de Pentaho « alimenter un data lake », les entreprises peuvent gérer un ensemble de sources de données en constante évolution, reproduire des processus à grande échelle et garantir un contrôle et une gouvernance. Grâce à cela, les développeurs peuvent faire évoluer facilement leur processus d’ingestion et automatiser chaque étape du pipeline des données.
« Dans la mesure où les sources de données se comptent dorénavant par milliers, les transformations manuelles des codes de chaque source prennent un temps considérable et s’avèrent extrêmement difficiles à gérer et à suivre », explique Chuck Yarbrough, Senior Director of Solutions Marketing, chez Pentaho, société du groupe Hitachi. « Les développeurs et les analystes de données doivent pouvoir créer un seul processus capable de prendre en charge les différentes sources de données. Pour cela, il est nécessaire de détecter les métadonnées à la volée et de les utiliser pour générer dynamiquement des instructions qui pilotent automatiquement la logique de transformation. »
D’après un rapport de Forrester Consulting, commandé par Pentaho, 52 % en moyenne des entreprises croisent au moins 50 sources de données pour mettre en œuvre des capacités analytiques, environ un tiers (34 %) en croise au moins 100, et 12 % au moins un millier. Alors que bien des entreprises utilisent Python ou d’autres langages de script pour coder la façon d’accéder à ces sources de données, l’architecture « Alimenter un data lake » réduit la dépendance vis-à-vis des procédures d’ingestion des données codées pour accroître les gains d’efficacité opérationnels, renforcer les économies et alléger les tâches de maintenance.
« Aujourd’hui, l’un des enjeux majeurs des Big Data est de trouver un moyen simple d’alimenter automatiquement des data lakes Hadoop. Notre équipe a tout mis en œuvre pour trouver des moyens itératifs d’accélérer le pipeline d’analyse des Big Data. Elle a notamment mis au point une approche permettant une analyse des Big Data à grande échelle, automatisée et plus agile », ajoute Chuck Yarbrough.
Pentaho a élaboré quatre autres projets types pour aider les entreprises à optimiser et à mener à bien leurs projets Big Data. En savoir plus ici : Optimiser l’entrepôt de données, Monétiser mes données, Optimiser une raffinerie de données et Avoir une vue à 360° des clients.
D’après Ventana Research, les projets Big Data obligent les entreprises à passer 46 % de leur temps à la préparation des données et 52 % à la vérification de la qualité et de la cohérence des données. En suivant le projet type de Pentaho « alimenter un data lake », les entreprises peuvent gérer un ensemble de sources de données en constante évolution, reproduire des processus à grande échelle et garantir un contrôle et une gouvernance. Grâce à cela, les développeurs peuvent faire évoluer facilement leur processus d’ingestion et automatiser chaque étape du pipeline des données.
« Dans la mesure où les sources de données se comptent dorénavant par milliers, les transformations manuelles des codes de chaque source prennent un temps considérable et s’avèrent extrêmement difficiles à gérer et à suivre », explique Chuck Yarbrough, Senior Director of Solutions Marketing, chez Pentaho, société du groupe Hitachi. « Les développeurs et les analystes de données doivent pouvoir créer un seul processus capable de prendre en charge les différentes sources de données. Pour cela, il est nécessaire de détecter les métadonnées à la volée et de les utiliser pour générer dynamiquement des instructions qui pilotent automatiquement la logique de transformation. »
D’après un rapport de Forrester Consulting, commandé par Pentaho, 52 % en moyenne des entreprises croisent au moins 50 sources de données pour mettre en œuvre des capacités analytiques, environ un tiers (34 %) en croise au moins 100, et 12 % au moins un millier. Alors que bien des entreprises utilisent Python ou d’autres langages de script pour coder la façon d’accéder à ces sources de données, l’architecture « Alimenter un data lake » réduit la dépendance vis-à-vis des procédures d’ingestion des données codées pour accroître les gains d’efficacité opérationnels, renforcer les économies et alléger les tâches de maintenance.
« Aujourd’hui, l’un des enjeux majeurs des Big Data est de trouver un moyen simple d’alimenter automatiquement des data lakes Hadoop. Notre équipe a tout mis en œuvre pour trouver des moyens itératifs d’accélérer le pipeline d’analyse des Big Data. Elle a notamment mis au point une approche permettant une analyse des Big Data à grande échelle, automatisée et plus agile », ajoute Chuck Yarbrough.
Pentaho a élaboré quatre autres projets types pour aider les entreprises à optimiser et à mener à bien leurs projets Big Data. En savoir plus ici : Optimiser l’entrepôt de données, Monétiser mes données, Optimiser une raffinerie de données et Avoir une vue à 360° des clients.
Autres articles
-
Snowflake vs Hadoop : lequel choisir ?
-
Les évolutions de Hadoop en 2022
-
Teradata poursuit ses avancées dans le cloud grâce à l'élargissement de ses offres en analytique cloud et son nouveau partenaire Google Cloud
-
Cloudera et Hortonworks finalisent leur fusion
-
Cloudera et Hortonworks annoncent leur fusion pour créer la première plateforme de données de nouvelle génération et offrir le premier environnement cloud pour les données d’entreprise de l’industrie