Les six étapes de préparation et de traitement des données appliquées au monde de l’assurance


Rédigé par Cindy Maike, Hortonworks le 22 Juin 2017

Pour améliorer la connaissance client et concevoir des services sur mesure, le processus de préparation et de traitement des données, appelé data wrangling, joue un rôle clé pour les acteurs du secteur de l’assurance. Découverte, structuration, nettoyage, enrichissement, validation et publication, le processus de data wrangling se déroule en six étapes pour offrir aux compagnies d’assurance une meilleure exploitation des diverses et complexes données à leur disposition.



Cindy Maike Cindy Maike, General Manager Insurance, Hortonworks
Comme dans la plupart des secteurs d’activité, les acteurs du monde de l’assurance doivent relever les défis relatifs à l’actuelle multiplication des sources de données. Les processus ETL (Extract, Transform, Load) traditionnels, visant à automatiser les tâches d’extraction des données multi-source, leur conversion dans des formats adaptés et leur chargement dans des bases de données, coûtent cher et sont longs. De plus, la diversité des structures et des formats de données complique encore la donne. Les plateformes Hadoop proposent au contraire un format net, sûr et facile à gérer de préparation et traitement des données (data wrangling) en prévision de leur analyse.

Les compagnies d’assurance doivent accorder une importance cruciale au processus de data wrangling qui ressort comme la condition sine qua non de l’obtention de résultats pertinents. Correctement exécutée, cette étape de préparation et de traitement rend les données exploitables pour pouvoir les utiliser à des fins analytiques et produire des résultats de qualité.
Le processus de data wrangling se divise en six étapes selon le spécialiste Trifacta. Voyons comment chacune de ces étapes s’applique au secteur de l’assurance.

1. La découverte des données

« Le terme de découverte vaut pour tout le processus ; cette étape d’exploration permet d’obtenir une compréhension fine des éléments qui composent les données pour envisager une approche analytique la plus productive possible. »

Dans le monde de l’assurance, il est essentiel de comprendre précisément les données disponibles. La définition du terme « foyer » est dynamique, par exemple, compte tenu du nombre croissant de jeunes de la génération Y qui vivent chez leurs parents. Par conséquent, la valeur à vie d’un foyer est une métrique plus pertinente que la valeur à vie d’un client. De telles découvertes aident à mieux comprendre comment procéder.

2. La structuration

« La structuration est nécessaire car chaque donnée peut avoir une forme et une taille différentes. »

Les acteurs du secteur de l’assurance se sont désormais équipés dans l’objectif d’extraire des données de sources structurées et non structurées. Les transcriptions des conversations avec les clients au sein des centres d’appels, qui sont des textes non structurés, peuvent indiquer si un client rencontre des problèmes avec ses polices d’assurance. Ces transcriptions sont un point de données important, mais il faut pouvoir disposer d’un outil en libre-service de data wrangling qui permette de structurer efficacement ce type de données non structurées avant de pouvoir les exploiter.

3. Le nettoyage

« Le nettoyage implique d’enlever les valeurs qui pourraient fausser l’analyse, une valeur nulle par exemple. »

Le nettoyage des données va plus loin que le simple reformatage des valeurs ou champs nuls : c’est le moyen de valider la fiabilité des données. Mais les exigences de conformité réglementaire du monde de l’assurance obligent à établir une traçabilité totale des données. Une solution de data wrangling permet d’assurer le suivi de toutes les modifications, des données brutes d’origine jusqu’à la publication finale.

4. L’enrichissement

« L’enrichissement est l’étape où on peut se demander quelles autres données pourraient être utiles à l’analyse ou quelles données pourraient être déduites des données existantes. »

Les données des compagnies d’assurance peuvent être enrichies en les combinant à d’autres données. On peut envisager, par exemple, de coupler les données du quoi, quand et comment d’un achat de produit avec des données marketing. Ce faisant, on pourra évaluer l’efficacité des efforts de communication et mieux cibler les clients avec des stratégies de marketing personnalisées.

5. La validation

« La validation est l'activité qui permet de mettre en exergue les problèmes de qualité et de consistance des données et de vérifier que ces problèmes ont bien été traités correctement. »

L’examen d’un profil de risque complet suppose de valider toutes les variables connues. Le nombre de contrats d’assurance d’un client ou d’une filiale, par exemple, est à comparer avec le calendrier exact des changements de systèmes. Cette étape permet de visualiser l’orchestration des éléments entre eux et de garantir la validité des données.

6. La publication

« La publication consiste à fournir le résultat des efforts de data wrangling pour les besoins d’une initiative en aval. »

La publication est l’étape d’exploitation des données structurées, soit en les chargeant dans un processus d’analyse spécifique, soit en documentant la logique de transformation à d’autres fins. Dans le secteur de l’assurance, le service d’actuariat a absolument besoin que les données structurées soient publiées, tout comme les autres professionnels en aval chargés de l’analyse des risques, des souscriptions, des demandes d’indemnisation ou d’analyser les profils de clients.
Au sein des compagnies d’assurance qui utilisent Hadoop pour leurs besoins analytiques, l’étape de data wrangling doit demeurer incontournable, car sans préparation et traitement des données, les initiatives d’optimisation de la sélection des risques, d’accroissement de la clientèle et de lutte contre les indemnisations excessives seront vaines. Le processus de data wrangling explore toutes les données envisageables pour aboutir à la compréhension la plus fine possible.



Dans la même rubrique :