Patrick COFFRE, community manager de Talend
La diminution et les erreurs de qualité de données ont pour cause de nombreuses raisons. Nous pouvons classifier en trois catégories les changements sur les données pouvant causer des diminutions de qualité:
- Les entrées de nouvelles données dans une base, comme l’insertion d’un nouveau nom de client ou la modification d’un contact déjà existant.
- La détérioration à cause de manipulations de données, par exemple un transfert de données.
- Les changements par processus interne, que ce soit par le traitement des données, le nettoyage des données ou la purge des données.
Ces diminutions de qualité peuvent ensuite entrainer des erreurs de données, dans un second temps, lorsque les données sont utilisées par les entreprises.
Regardons un exemple d’erreur de qualité de données. Dans son livre « Data Quality Assessment », Arkady Maydanchik cite l’un de ses premiers problèmes de qualité de données. Intégré à une équipe chargée de l’implémentation d’un nouveau système d’administration des retraites, Arkady pensait la tache simple à effectuer. Il s’avère que la conversion des anciens bulletins de salaire et types de compensation en retraite donnaient des erreurs pour de nombreux retraités. La moitié des codes de compensations n’étaient pas inclus dans la méthode de calcul et étaient totalement inconnus d’Arkady. C’est seulement en intégrant ces codes et après de longues semaines de profiling et analyses de données que l’implémentation du système a pu être faite.
Dans ce cas, la solution était relativement aisée à trouver, ce qui n’est pas le cas pour tous problèmes de qualité de données. Dans d’autres cas où la qualité de données est plus complexe, trop d’erreurs peut signifier la fin de l’utilisation des données dans l’entreprise et des équipes liées au projet !
Pour une Business Intelligence plus fiable, la qualité de données est importante quand on gère des données. Elle apporte de nombreux avantages, notamment une gestion de projet maîtrisée et de la fiabilité ainsi que de la flexibilité à la gestion de données d'une entreprise. Des données de bonne qualité permettent à l’entreprise de rester compétitive et de continuer à avancer.
Mais les données sont parfois fausses pour commencer, à cause d’erreurs, d'accidents, ce qui rend leur utilisation risqué pour l'entreprise : laquelle doit se tourner impérativement vers des solutions de qualité de données.
Les bonnes données d'origine sont parfois au mauvais endroit, et il arrive que celles-ci soient coupées ou modifiées. Les données peuvent aussi devenir obsolètes ou être victime de fraudes au sein de l'entreprise. Les entreprises pourront alors avoir recours à de la qualité de données pour réparer les erreurs.
Au-delà du phénomène médiatique, les grands volumes de données (Big Data) sont aussi un enjeu pour la qualité de données. Plus on a de données, plus les chances de se retrouver en face de problèmes de données potentiels est important.
Avec les Big Data, la qualité de données doit avoir une importance accrue. La nature des données volumineuses ne permet pas toujours des pratiques traditionnelles de qualité de données et le volume peut être trop important pour le traitement. Les données peuvent parfois être trop instables pour les gérer convenablement. C'est pourquoi on peut conseiller d’une part l’utilisation de processus de qualité de données basés sur Hadoop, pour faciliter la qualité de données sur des volumes importants. Et d’autre part une certaine rigueur et consistance dans la gestion des données volumineuses au sein de l’entreprise.
La qualité de données n’est pas une science exacte : les raisons de problèmes de qualité de données peuvent être différentes. La gestion des données suppose de prendre en compte la qualité de données.
Reprenons l’exemple du tweet en introduction : même si parfois on peut s’attendre à ce qu’aucun nom (parfois remplacé par des X) ou un nom différent apparaisse, parce qu’il est peut être difficile pour toutes les entreprises d’empêcher des problèmes de qualité de données, cela reste dommageable pour un individu de ne pas voir son nom mentionné. Alors, en fait, la qualité de données permet de non seulement techniquement s’adresser à la bonne personne dans un message personnalisé mais est aussi gage d’une bonne relation humaine entre l’entreprise et le destinataire. C’est pour ces raisons que la qualité de données en entreprise peut aujourd’hui être considérée comme l’un des composants de fidélisation au même titre que la relation commerciale, financière ou client.
- Les entrées de nouvelles données dans une base, comme l’insertion d’un nouveau nom de client ou la modification d’un contact déjà existant.
- La détérioration à cause de manipulations de données, par exemple un transfert de données.
- Les changements par processus interne, que ce soit par le traitement des données, le nettoyage des données ou la purge des données.
Ces diminutions de qualité peuvent ensuite entrainer des erreurs de données, dans un second temps, lorsque les données sont utilisées par les entreprises.
Regardons un exemple d’erreur de qualité de données. Dans son livre « Data Quality Assessment », Arkady Maydanchik cite l’un de ses premiers problèmes de qualité de données. Intégré à une équipe chargée de l’implémentation d’un nouveau système d’administration des retraites, Arkady pensait la tache simple à effectuer. Il s’avère que la conversion des anciens bulletins de salaire et types de compensation en retraite donnaient des erreurs pour de nombreux retraités. La moitié des codes de compensations n’étaient pas inclus dans la méthode de calcul et étaient totalement inconnus d’Arkady. C’est seulement en intégrant ces codes et après de longues semaines de profiling et analyses de données que l’implémentation du système a pu être faite.
Dans ce cas, la solution était relativement aisée à trouver, ce qui n’est pas le cas pour tous problèmes de qualité de données. Dans d’autres cas où la qualité de données est plus complexe, trop d’erreurs peut signifier la fin de l’utilisation des données dans l’entreprise et des équipes liées au projet !
Pour une Business Intelligence plus fiable, la qualité de données est importante quand on gère des données. Elle apporte de nombreux avantages, notamment une gestion de projet maîtrisée et de la fiabilité ainsi que de la flexibilité à la gestion de données d'une entreprise. Des données de bonne qualité permettent à l’entreprise de rester compétitive et de continuer à avancer.
Mais les données sont parfois fausses pour commencer, à cause d’erreurs, d'accidents, ce qui rend leur utilisation risqué pour l'entreprise : laquelle doit se tourner impérativement vers des solutions de qualité de données.
Les bonnes données d'origine sont parfois au mauvais endroit, et il arrive que celles-ci soient coupées ou modifiées. Les données peuvent aussi devenir obsolètes ou être victime de fraudes au sein de l'entreprise. Les entreprises pourront alors avoir recours à de la qualité de données pour réparer les erreurs.
Au-delà du phénomène médiatique, les grands volumes de données (Big Data) sont aussi un enjeu pour la qualité de données. Plus on a de données, plus les chances de se retrouver en face de problèmes de données potentiels est important.
Avec les Big Data, la qualité de données doit avoir une importance accrue. La nature des données volumineuses ne permet pas toujours des pratiques traditionnelles de qualité de données et le volume peut être trop important pour le traitement. Les données peuvent parfois être trop instables pour les gérer convenablement. C'est pourquoi on peut conseiller d’une part l’utilisation de processus de qualité de données basés sur Hadoop, pour faciliter la qualité de données sur des volumes importants. Et d’autre part une certaine rigueur et consistance dans la gestion des données volumineuses au sein de l’entreprise.
La qualité de données n’est pas une science exacte : les raisons de problèmes de qualité de données peuvent être différentes. La gestion des données suppose de prendre en compte la qualité de données.
Reprenons l’exemple du tweet en introduction : même si parfois on peut s’attendre à ce qu’aucun nom (parfois remplacé par des X) ou un nom différent apparaisse, parce qu’il est peut être difficile pour toutes les entreprises d’empêcher des problèmes de qualité de données, cela reste dommageable pour un individu de ne pas voir son nom mentionné. Alors, en fait, la qualité de données permet de non seulement techniquement s’adresser à la bonne personne dans un message personnalisé mais est aussi gage d’une bonne relation humaine entre l’entreprise et le destinataire. C’est pour ces raisons que la qualité de données en entreprise peut aujourd’hui être considérée comme l’un des composants de fidélisation au même titre que la relation commerciale, financière ou client.
Autres articles
-
Qlik lance Qlik Talend Cloud et fournit aux entreprises un socle fiable pour l’IA
-
Palladium Hotel Group tire profit de ses données grâce à Talend afin de proposer une expérience client améliorée
-
Qlik acquiert Talend et associe ses capacités inégalées d’intégration de données à celles de Talend en matière de transformation, de qualité et de gouvernance des données
-
Talend annonce une mise à jour majeure de sa plateforme Data Fabric
-
Qlik souhaite racheter Talend