Mise en place d’une plateforme analytique pour la recherche médicale : défis et opportunités

Photo by jesse orrico on Unsplash

Avec le prix du séquençage génétique qui a drastiquement diminué, et les algorithmes de machine learning qui évoluent très rapidement, la médecine est en route vers une nouvelle transformation. En effet, depuis que le génome humain a été séquencé en 2003, les progrès technologiques permettent la venue sur le marché de séquenceurs de plus en plus performants et abordables. Selon le NHGRI-funded genome-sequencing group, le coût du séquençage est passé de 100’000’000$ en 2001, à 100’000$ en 2009, 4000$ en 2015 et environ 800$ actuellement. Et ce n’est pas terminé, la compagnie Illumina fait miroiter un séquençage complet aux alentours de 100$ sous peu.

Cette baisse de coûts, associée aux progrès dans le domaine du machine learning, de l’IA ou du cognitive computing, ouvre de nouvelles voies aux chercheurs qui travaillent sur de nouveaux traitements personnalisés pour chaque patient. Cette médecine des 4 P (Predictive, Preventive, Personalized and Participatory) abandonne le «one-size-fits-all-approach» pour adapter la prévention et les traitements en tenant compte des différences génétiques, environnementales et des modes de vie des individus.

Cette nouvelle approche nous propose de beaux challenges, à nous, spécialistes de la donnée.

Les défis sont nombreux : de la consolidation des données à la puissance de calcul, en passant par la sécurisation de ces précieuses données.

Les chercheurs-médecins ne se contentent plus d’un petit jeu de données bien structurées; aujourd’hui, l’ensemble des données d’un patient est nécessaire, les radiographies, les données génétiques, les analyses de laboratoire, le dossier médical, les données des capteurs de santé (Fitbit, Empatica et autres), etc… Il faut donc mettre à disposition des environnements avec des données extrêmement hétérogènes et très gourmandes en espace de stockage. A titre d’exemple, le stockage d’un génome complet pour un patient est d’environ 125GB de données. Ajoutez-y les données d’imageries (radiologie) et on comprend rapidement les enjeux.

Lorsqu’un patient donne son consentement à l’utilisation de ses données pour la recherche, il s’attend à ce que ses données soient stockées de manière ultra sécurisée et utilisées selon les principes dictés par les multiples lois sur la protection des données, la recherche sur l’être humain, le GDPR et autres directives internationales.

Un important travail est alors mis en œuvre pour protéger ces données.

Pour les données génétiques par exemple, qui sont intrinsèquement identifiables, il est essentiel d’utiliser des mécanismes avancés de chiffrement, comme l’encryption homorphique, qui permettent d’utiliser directement ces données dans des traitements, sans jamais devoir les déchiffrer.
Le traitement de l’imagerie est tout aussi complexe puisque certaines radiographiques doivent être anonymisées avant de les mettre à disposition des chercheurs. Il faut ainsi flouter les numéros de prothèses, ou encore le contour du visage, afin de garantir la confidentialité du patient. Un processus complexe, sachant que les appareils d’imagerie prennent des centaines d’images pour une seul coupe.

Le dossier médical du patient contient évidemment une grande quantité d’information bien trop souvent non structurée : les notes des médecins, des lettres de fin d’hospitalisation, l’anamnèse du patient, etc..

Ces documents ont une valeur certaine pour les chercheurs. On va y trouver les diagnostics, les antécédents médicaux, des résultats de tests, parfois des informations sur la parenté, les habitudes de vie, etc...

Toutes ces informations sont sous forme de texte libre et doivent être associées aux autres données du patient. Il faut donc développer des outils pour analyser ces textes et extraire de manière automatique les informations pertinentes, ce que l’on appelle généralement le Natural Language Processing ou Textmining.

Le temps précieux des médecins-chercheurs ne doit pas être gaspillé à analyser manuellement ces milliers de documents, ce qui est souvent le cas actuellement.

Des outils apparaissent sur le marché pour nous aider, mais la complexité est immense. Ces algorithmes doivent savoir détecter les pièges de la langue ; la double négation, les dates relatives (durant l’enfance, le mois dernier), etc… pour extraire des informations fiables pour le chercheur.

Des produits comme par exemple IBM Watson Explorer, Linguamatics, ou d’autres produits open source permettent de structurer ces textes avec plus ou moins de succès. En général, ces produits sont performants en anglais mais l’utilisation dans d’autres langues devient rapidement très problématique et engendre des efforts énormes pour atteindre des résultats similaires.

Ces textes libres doivent également être anonymisés. Il faut donc supprimer toutes les références identifiantes associées aux patients, aux médecins, aux lieux de traitement ou toute autre information qui tombe sous le sceau de la loi HIPAA par exemple. Là encore, des algorithmes sont disponibles mais une personnalisation en fonction du contexte est nécessaire : lexique propre à l’institution médicale, la région géographique (code postal, ville), etc…

Raphael Colsenet

Lorsque toutes ces données sont traitées, anonymisées et intégrées par le biais d’un pseudonyme (identifiant aléatoire correspondant à un sujet de recherche), elles peuvent être mise à disposition du chercheur. Le chercheur peut alors commencer son étude. Mais le travail de l’informaticien n’est pas pour autant terminé !

Afin de prévenir toute ré-identification malicieuse, des mesures de protection additionnelles sont parfois mises en place lors de l’analyse des données. En effet, certains attributs non sensibles d’un sujet de recherche pourraient éventuellement permettre de l’identifier en croisant le jeu de données mis à disposition avec d’autres sources de données publiques. Par exemple, une personne ayant une maladie rare, un âge très avancé ou une masse corporelle hors norme pourrait être ré-identifiée.

Afin de garantir la confidentialité des données, des calculs statistiques peuvent être effectués pour identifier les « outliers » et ajouter du bruit sur les résultats des requêtes. Bien entendu, le bruit ajouté est un juste équilibre entre la distorsion de la donnée, pour éviter l’identification du sujet, et le maintien de l’intégrité des données pour le chercheur. Les techniques de « differential privacy » sont alors appliquées pour prévenir ces problèmes. Ce mécanisme permet d’éviter, par exemple, qu’une personne malintentionnée effectue une multitude de requêtes sur un même jeu de données en changeant légèrement un paramètre pour tenter d’isoler un individu. L'algorithme va alors brouiller les données différemment entre chaque requête ou simplement préciser que l’individu se trouve dans une tranche particulière, par exemple > à 80 ans lorsque l’âge peut être identifiant.

La recherche médicale avance à grand pas, les lois et directives protègent les données personnelles et les informaticiens ont pour tâche de réconcilier les deux en mettant à disposition des environnements qui intègrent des données extrêmement hétérogènes, comme nous l’avons vu précédemment, qui garantissent la sécurité des données, qui sont ultra performants et qui puissent évoluer rapidement.

Voilà les défis auxquels les spécialistes IT de la donnée sont confrontés : fascinant, mais déroutant par sa complexité.
Les compétences nécessaires étant tellement pointues et variées (génomique, imagerie, sécurité, machine learning, textmining, data quality, etc...), une collaboration étroite avec le milieu académique est essentielle pour garantir d’intégrer l’état de l’art des technologies pour ce type de projet.

Et tout va très vite. Des initiatives technologiques voient le jour partout dans le monde afin d’accélérer la recherche sur la médecine personnalisée, qui est fort prometteuse.

Au Qatar, une initiative d’une ambition sans précédent vise à obtenir une cartographie génétique complète de la population du pays. Le projet pilote, démarré en 2015, a déjà séquencé plus de 6000 génomes ( Qatar Genome Programme).

En 2015, le Président Obama a lancé « the precision medicine initiative », qui vise le séquençage de 1M d’individus aux Etats-Unis.

L’Angleterre a également son projet visant à séquencer 100'000 génomes ou encore la Suisse qui déploie actuellement un réseau de santé personnalisée.

Des compagnies privées se lancent également dans la course. La plus connue, 23andme, possède déjà plus de 1.2M de génomes séquencés dans sa base de données. Elle manque cependant cruellement de données phénotypiques fiables (caractères anatomiques, physiologiques, etc).

Afin de contrer ce problème, d’autres modèles émergent comme Trinetx, qui se positionne comme intermédiaire pour la mise à disposition des données médicales. En effet, ils mettent gracieusement à la disposition des institutions de santé le hardware, le déploiement et le mapping des données (en général extrêmement coûteux) en échange des données médicales. Trinetx possède maintenant un bassin de 84 million de patients dont les pharmas sont très friandes.
Bref, des solutions sont à disposition avec de nombreuses startups, des produits développés par les universitaires et avec les grands acteurs IT (IBM, Oracle, Cisco, Deloitte, etc…) qui se lancent tous dans ce domaine. Mais malgré la compétition féroce, la maturité technologique de ces solutions est encore faible et très peu de solutions sont complètement intégrées. Et jongler avec une multitude de produits est inévitable actuellement.

En tout état de cause, l’informatique pour la recherche médicale est un domaine fascinant, en pleine mutation, et qui pousse les informaticiens dans de nouveaux retranchements pour répondre aux nombreux défis posés par les médecins-chercheurs de la santé personnalisée.

Remerciements à M. Sébastien Rocher et M. Nicolas Rosat pour leur aide précieuse.

Mise en place d’une plateforme analytique pour la recherche médicale : défis et opportunités

{{date}} {{title}}