Parler le langage des données de santé pour mieux les exploiter

Illustration : Diane Rottner pour I'MTech

La santé dispose d’importantes bases de données qui ne demandent qu’à être exploitées. C’est l’un des enjeux des travaux de Benjamin Dalmas, chercheur en sciences des données de santé à Mines Saint-Étienne. Il cherche avant tout à comprendre l’origine de ces données pour mieux les restituer. Il collabore ainsi avec des acteurs publics et privés à des fins d’analyse et de prédiction pour une meilleure gestion des établissements et compréhension des parcours de soin.

La recherche a réalisé de belles avancées sur les méthodes de traitement en machine learning. Mais que sait-on réellement des informations que celles-ci utilisent ? Benjamin Dalmas est chercheur en science des données de santé à Mines Saint-Étienne. Son cœur de métier : comprendre les données de santé depuis leur création jusqu’à leur stockage. En quoi consistent-elles ? Y figurent notamment l’heure d’arrivée et de sortie du patient, les examens suivis, les praticiens consultés, etc. Celles-ci servent habituellement à des fins administratives et financières.

Les travaux de Benjamin Dalmas consistent à identifier et restituer de façon simple des informations pertinentes qui répondent à des besoins concrets d’acteurs publics ou privés de la santé. Comment optimiser la gestion des lits d’un service hospitalier ? Est-il possible de prédire les flux d’arrivées aux urgences ? Autant de problématiques différentes utilisant la même base de réponse : les données médico-administratives produites chaque jour par les hôpitaux pour suivre le parcours de leurs patients.

Toutefois, selon la façon dont elle est considérée, une même donnée peut apporter des informations différentes. Elle est le témoin clé de plusieurs investigations. Reste à trouver la bonne façon de l’aborder pour obtenir des réponses.

Comprendre la donnée pour éviter les biais

Majoritairement générées par les humains, les données de santé peuvent être erronées ou biaisées. En s’intéressant à l’étape de leur création, les chercheurs veulent donc identifier de premiers biais éventuels. En collaboration avec le Centre hospitalier universitaire de Saint-Étienne, Benjamin Dalmas s’intéresse notamment aux codes attribués par l’hôpital à la sortie d’un patient. Ils résument la raison pour laquelle la personne est venue et a été prise en charge. Des médecins spécialistes du codage génèrent ainsi jusqu’à 16 000 codes différents. Une tâche fastidieuse que l’hôpital souhaite assister d’un outil d’aide à la décision afin de limiter les erreurs. « Pour cela, nous devons comprendre comment l’humain code. En analysant d’importants volumes de données, nous identifions les erreurs récurrentes et d’où elles viennent, et nous pouvons y remédier », explique Benjamin Dalmas. Gagner en précision engendre ainsi des retombées économiques directes pour l’établissement.

Toutefois, ces données produites en masse sont de plus en plus utilisées à d’autres fins que le remboursement des hôpitaux. Pour le chercheur, il faut garder en tête qu’elles n’ont pas été créées pour ces nouvelles analyses. Par exemple, il  a remarqué qu’une notion aussi simple que le temps pouvait cacher plusieurs réalités. Lorsqu’une heure de consultation est précisée, celle-ci peut correspondre à trois choses différentes : l’heure réelle de la consultation, celle à laquelle l’information a été intégrée au dossier, ou bien une heure attribuée par défaut. En effet, le principal objectif de ces informations est administratif. L’heure de consultation importe donc peu. « Si nous ne prenons pas le temps d’étudier ces informations, nous risquons de prendre des préconisations biaisées qui ne sont pas valables. Il n’y a pas de bon outil sans compréhension des données qui l’alimentent », souligne le chercheur. Sans cette information, une étude qui s’intéresserait à l’existence, ou non, d’inégalités sociales et qui considèrerait pour cela le temps avant la prise en charge d’un patient, pourrait tirer des conclusions erronées.

Du réactif au proactif

Comprendre les données oui, mais dans quel but ? Prédire afin d’anticiper et ne plus simplement réagir. Le développement d’outils prédictifs est au cœur d’une collaboration entre les chercheurs de Mines Saint-Étienne et l’entreprise Move in Med. L’objectif : anticiper la coordination des parcours de soins de personnes atteintes d’un cancer du sein. Dans le cas de maladies chroniques comme un cancer, le parcours du patient ne se cantonne pas à l’hôpital mais dépend aussi de l’entourage du patient, d’associations, etc. Pour y parvenir, les chercheurs croisent les données médicales à d’autres informations sociales (âge, situation de famille, contexte socio-économique, lieu de résidence, etc.). L’enjeu est donc d’identifier, au sein des données, des facteurs insoupçonnés de la même façon que la météo, la qualité de l’air ou même la survenue d’événements culturels impactent les pics d’affluence aux urgences. Prédire la complexité d’un parcours de soin permettra ensuite à l’entreprise d’allouer les ressources adaptées et donc d’assurer une meilleure prise en charge.

En parallèle, l’Agence régionale de la santé Auvergne Rhône-Alpes travaille avec les chercheurs depuis mai 2020 afin de prédire les niveaux de tension hospitalière en arrivées Covid. Grâce à une restitution des données visuelles jouant sur des systèmes de couleurs et de flèches, les chercheurs renseignent l’évolution des dynamiques et des niveaux de tension des hôpitaux de la région (arrivées Covid, tests PCR positifs dans la région, nombre de lits disponibles, etc.). Cette fois, les chercheurs s’attèlent au suivi de tendances. Comment évoluent ces paramètres dans le temps ? À partir de quelles valeurs seuils alertent-ils d’une situation qui s’aggrave ? Afin de répondre à ces questions, l’équipe de recherche fournit des cartographies et des projections à partir desquelles l’ARS peut anticiper la saturation et donc éviter la surcharge de ses établissements, d’orchestrer des transferts de patients, etc.  

Trouver un équilibre entre volume et représentativité

Derrière l’étude des données se posent des questions de volume et de représentativité qui dépendent de la demande de l’utilisateur. Prouver sans s’équiper nécessite davantage de données afin d’alimenter des algorithmes de machine learning. « Cependant, récupérer des données de santé publique est un parcours du combattant. Il faut suivre des protocoles très réglementés auprès de la CNIL (Commission nationale de l’informatique et des libertés) et de comités d’éthique afin de justifier les volumes demandés », explique Benjamin Dalmas. En revanche, une demande d’outils opérationnels doit pouvoir s’adapter à la réalité terrain des praticiens. Cela signifie de fonctionner avec des quantités d’informations limitées. Tout est une question d’équilibre.

Sur ces aspects, les chercheurs de Mines Saint-Étienne collaborent avec l’entreprise stéphanoise MJ INNOV. Celle-ci propose un outil interactif de médiation afin d’améliorer la qualité de vie de personnes ayant des troubles cognitifs. Ces travaux visent à identifier, à l’aide de vidéos et de sons captés pendant les phases de jeu, l’impact de la pratique sur les différents sujets (résident d’Ehpad, personne atteinte de la maladie d’Alzheimer, etc.). En plus des éléments issus des dossiers des résidents, cela implique de collecter de nouvelles informations en quantité restreinte. « Dans un monde idéal, nous aurions des images à 360° et une couverture sonore parfaite. En pratique, pour ne pas perturber le jeu, il faut envisager de placer les micros sous la table sur laquelle les patients pratiquent, ou encore de loger la caméra directement à l’intérieur de celle-ci. Nous confronter à ces contraintes rend notre analyse encore plus intéressante », relève Benjamin Dalmas.

Mesurer l’impact des outils d’aide à la décision pour la santé

Dans le meilleur des cas, les chercheurs aboutissent à la création d’un outil d’aide à la décision accessible en ligne. Néanmoins, celui-ci est-il toujours adopté par les principaux intéressés ? « Il y a très peu d’études sur l’ergonomie des outils livrés aux utilisateurs et donc sur leur impact et leur utilisation réels », remarque Benjamin Dalmas. Une question pourtant essentielle, selon lui, si on veut améliorer la recherche en science des données dans un domaine applicatif aussi concret que celui de la santé.

En ce sens, une solution adaptée rime souvent avec simplicité. Premièrement, grâce à une bonne lisibilité : des jeux de couleurs, des formes, des flèches, etc. La visualisation et l’interprétation des données doit être intuitive. Deuxièmement, en favorisant l’explicabilité des résultats. Un des inconvénients des méthodes de machine learning est que les informations fournies apparaissent comme émanant d’une boîte noire. « Les efforts de la recherche doivent désormais se porter sur la restitution en renforçant les interactions entre chercheurs et utilisateurs », conclut Benjamin Dalmas.

Par Anaïs Culot

À lire sur I’MTech : Quand l’IA aide à prédire le parcours de soin d’un patient

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.