Elfe/Ined étudie le développement de l’enfant à l’aide de SAS Visual Analytics


Rédigé par Communiqué de SAS le 16 Octobre 2014

L'étude scientifique ELFE tire parti de la richesse fonctionnelle de SAS Visual Analytics pour dresser une image précise de la situation de l’enfance en France, à travers le regard de multiples chercheurs



"Les fonctions analytiques proposées par SAS Visual Analytics sont particulièrement sophistiquées -exploration, constitution dynamique de rapports, croisements, etc.- et nous ouvrent de nouvelles perspectives.", Ando Rakotonirina, Directeur des systèmes d’information de l’unité de recherche ELFE de l’Ined

SAS, leader mondial de la business analytics annonce que l'Institut national d’études démographiques (Ined) a retenu sa solution d’exploration et de visualisation des données SAS® Visual Analytics dans le cadre du programme ELFE. L’Ined, le plus important institut de recherche démographique au monde, étudie les populations de la France et des pays étrangers avec les outils du démographe et les apports des autres disciplines : histoire, géographie, sociologie, anthropologie, économie, biologie, épidémiologie. Ses chercheurs travaillent dans des domaines aussi divers que la contraception et l’avortement, les migrations, les populations en marge et l’allongement de la durée de vie. L'Ined emploie environ 200 personnes, dont 60 chercheurs titulaires, 110 techniciens ou ingénieurs, une vingtaine de doctorants, ainsi que des chercheurs associés.

ELFE : Etude Longitudinale Française depuis l’Enfance

ELFE, l’un des programmes de recherche phares de l’Ined, vise à suivre, pendant 20 ans, 18 300 enfants nés en 2011, pour mieux comprendre comment les conditions périnatales et l'environnement dans ses différentes dimensions affectent le développement, la santé et la socialisation des enfants, de la période intra-utérine à l'adolescence. Le projet est pluridisciplinaire et se construit à partir des propositions de plus de 100 chercheurs associés. En tout, plus de 300 équipes de recherche – démographes, économistes, médecins, généticiens, spécialistes de l’environnement, épidémiologistes, etc. – participent à ce programme, soit au total 1500 personnes.

« Ce programme, de très grande ampleur, doit prendre en compte une quantité dantesque de variables associées aux enfants : santé, sciences sociales, environnement, génétique, environnement familial, etc. Il repose sur des enquêtes menées chaque année et déclinées en quatre vagues (qui correspondent aux saisons). Les données issues de ces enquêtes sont stockées dans un système hautement sécurisé de base de données et décrivent la situation de l’enfant à travers des milliers de variables » témoigne Ando Rakotonirina, Directeur des systèmes d’information de l’unité de recherche ELFE de l’Ined. « Nous apportons un soin tout particulier aux contrôles qualité afin de garantir à nos chercheurs des données cohérentes. Si nous avons réalisé ces contrôles manuellement lors des premières enquêtes (maternité et 2 mois), nous avons souhaité industrialiser ce processus particulièrement chronophage. »

Dans le passé, les réponses aux questionnaires étaient stockées dans une solution SAS déployée sur un poste autonome (non relié au réseau) et gérées par une personne chargée de réaliser des tests de cohérence et de travailler sur la « validité » des données avec des chercheurs affectés à cette étude en leur mettant à disposition des informations sous la forme d’extractions. Pour des raisons de confidentialité, les chercheurs ne peuvent pas accéder à l'intégralité des données de toutes les enquêtes, des extractions étaient donc nécessaires à chaque demande. Ces pré-études de données permettaient de faire des redressements ou corrections éventuelles. Pour obtenir une base propre pour une collecte contenant 5 200 variables pour 18 300 individus – pouvant être mise à disposition de chercheurs du monde entier – il fallait compter un an et demi.

Fluidifier ces échanges, accélérer la mise à disposition des données

« Les travaux de contrôle qualité nécessitant de multiples extractions étaient très fastidieux et la transmission des données était réalisée via des supports physiques. De nombreux échanges étaient nécessaires avec les chercheurs pour déterminer exactement quelles données ils souhaitaient recevoir » poursuit Ando Rakotonirina. « Nous cherchions une solution permettant de fluidifier ces échanges, d’accélérer la mise à disposition des données et de garantir le principe d'un dépôt unique réclamé par les autorités. Par ailleurs, la future loi sur la protection des données scientifiques va dans ce sens (limitation des extractions des données) pour préserver la maîtrise de propriété des données des chercheurs. Au vu des volumétries que nous traitons, cette solution devait en outre offrir une grande puissance de traitement. »

Si, au départ, le Pôle SI de ELFE de l'Ined a privilégié des outils open source, il a pris conscience que ceux-ci ne répondaient qu’à une partie des objectifs. Une veille a été réalisée sur les outils de SAS et particulièrement SAS Visual Analytics (VA). Plusieurs maquettes ont été développées.

« Nous avons finalement décidé non seulement d’adopter VA, mais également de nous affranchir des anciennes solutions sur postes autonomes pour basculer sur SAS Server, puisque nous avions la garantie d’éviter les extractions grâce au système de dépôts sécurisés combiné à une gestion personnalisée des accès. Les fonctions analytiques proposées par l’outil sont particulièrement sophistiquées (exploration, constitution dynamique de rapports, croisements, etc.) et nous ouvrent de nouvelles perspectives » explique Ando Rakotonirina. « Depuis la mise en œuvre de VA, le Pôle SI et l’administrateur de données ELFE ont pris en main la solution pour créer des rapports et des explorations de base qu’ils ont mis à disposition des chercheurs. Ceci dans un premier temps pour améliorer l’adhésion. Dans un deuxième temps, les chercheurs pourront choisir en toute autonomie les données sur lesquelles ils travaillent et la manière de les présenter. »

SAS® Visual Analytics, pièce maîtresse de l’infrastructure analytique du programme ELFE

En quelques mois, SAS Visual Analytics est devenue une pièce maîtresse de l’infrastructure analytique du programme ELFE. Non seulement les multiples extractions ne sont plus nécessaires puisque chaque chercheur dispose de droits de consultation personnalisés et d’espaces de travail sécurisés, accessibles via un simple navigateur web, mais de plus, l’ensemble des modifications et des mises à jour sont tracées.

Pour Ando Rakotonirina, le principal objectif du projet a été atteint : « La problématique de sécurité des données liée aux extractions a été résolue. Nous respectons les contraintes légales et réglementaires, ce qui est bien sûr capital. Mais parallèlement, nous avons gagné en efficacité en termes d’organisation des contrôles qualité : les données sont mises à disposition dans SAS VA ce qui évite les nombreux allers-retours entre nos services. Pour l’enquête "2 mois", 18 mois ont été nécessaires pour rendre nos données exploitables. Avec VA, ce délai va être réduit à 5 mois ! » se réjouit-il. « Parallèlement, VA nous offre une richesse fonctionnelle qui permet de nouvelles dimensions d’analyse. Par exemple : nos utilisateurs peuvent, de manière autonome, visualiser dynamiquement la répartition des enfants allaités dans chaque département sur une carte. Filtrer les données selon leurs envies et obtenir les résultats instantanément. ».

Avec SAS, Elfe/Ined se déclare parfaitement équipée pour exploiter ses big data : « Les big data sont le carburant de la recherche moderne ! Elles sont en train de révolutionner notre profession : auparavant, chacun travaillait dans son coin et sur un mode vertical, les chercheurs partageaient difficilement leurs découvertes. Aujourd’hui, nous sommes en mesure d’enrichir nos analyses et de susciter la collaboration » conclut Ando Rakotonirina.



Dans la même rubrique :