En 2019, deux chercheurs israéliens spécialisés dans la cybersécurité faisaient la démonstration de la fragilité des systèmes informatiques hospitaliers. Grâce à un logiciel malveillant, les hackers accédaient à près de 70 scans pulmonaires pour y « intégrer » des tumeurs, méprenant le personnel soignant qui, de fait, diagnostiqua de faux cancers.
Cette attaque met en lumière la nécessité générale de développer des cellules d’investigation numérique (digital forensic), et celle plus spécifique de renforcer la sécurité informatique des réseaux hospitaliers. Il est en effet primordial d’être en mesure de protéger les données de santé, de détecter qu’une image – a fortiori médicale – est falsifiée, ou encore de sécuriser les outils d’aide à la décision basés sur l’IA utilisés par le personnel hospitalier.
C’est pour répondre à de tels besoins qu’a été créée la chaire industrielle Cybaile, dans laquelle IMT Atlantique est impliquée. Ce projet, axé sur l’apprentissage automatique fédéré, vise à développer des algorithmes robustes et sécurisés pour traiter des données médicales sensibles, distribuées sur différents sites. Il aborde aussi la protection de la propriété intellectuelle des modèles d’IA et fait appel à diverses plateformes expérimentales pour valider les solutions proposées.
Entre expertise médicale et cybersécurité
Tout commence en 2022 lorsqu’une équipe « Cyber Health » est créée au Laboratoire de traitement de l’information médicale, le LaTIM Inserm UMR1101, commun à IMT Atlantique, l’université de Bretagne occidentale (UBO) et l’Inserm. C’est pour renforcer l’activité de cette équipe dédiée à la cybersécurité des technologies pour la santé, qu’est lancée en 2023 la chaire Cybaile. Son objectif : développer une IA robuste et de confiance en santé, grâce à des outils de protection des données externalisées.
« Nous savons que les données de santé vont être partagées et sortir de leur système d’origine. Notre objectif est de réfléchir à comment continuer à les protéger alors qu’elles ne sont plus ‘entre les murs’ du système informatique », expose Gouenou Coatrieux, chercheur en sécurité informatique à IMT Atlantique, responsable de l’équipe Cyber Health et de la chaire Cybaile.
Pour ces recherches, la chaire bénéficie d’un solide ancrage dans le domaine médical grâce à des partenaires historiques du LaTIM, le CHU de Brest et Sophia Genetics, qui propose entre autres une plateforme d’analyse de données de santé alimentée par l’IA. Soutenu par la Région Bretagne, le projet s’appuie également sur un partenariat avec AiiNTENS, une startup spécialisée dans l’aide à la décision clinique en neurosciences et réanimation, et Thalès, qui apporte son expertise en matière de recherche en cybersécurité.
L’apprentissage fédéré pour minimiser les transferts de données
Pour développer des modèles intelligents d’aide à la décision en santé, il faut alimenter les réseaux de neurones derrière les modèles. Pour la reconnaissance de pathologies à partir d’images par exemple, les réseaux de neurones doivent apprendre à détecter ces pathologies, et à en donner les signes. Ce processus nécessite de très grands volumes de données. Or dans un contexte médicalisé, ces données sont particulièrement sensibles, il est essentiel de les sécuriser afin de limiter leur redistribution illégale.
Pour remédier à ce problème, les scientifiques de la chaire Cybaile misent sur l’apprentissage fédéré, une technique qui permet à plusieurs entités d’entraîner un modèle de manière collaborative, sans partager leurs données. Chaque entité utilise ses propres données pour améliorer le modèle de réseaux neurones, et seules les mises à jour sont centralisées. « Il est ainsi possible d’utiliser de grands volumes de données de santé distribuées, tout en respectant le droit à la vie privée », argumente Gouenou Coatrieux. « L’inconvénient, c’est précisément que nous ignorons ce qui est entré dans les modèles », tempère-t-il néanmoins.
Lutter contre l’empoisonnement des modèles
Dans un contexte fédéré, un serveur central fait la moyenne de tous les modèles développés par les entités auxquelles il est connecté. Il collecte ainsi toutes les mises à jour qui lui sont envoyées, y compris de possibles contributions malhonnêtes. De telles mises à jour peuvent venir polluer les données d’apprentissage ou faciliter l’installation de portes dérobées (backdoors) : un moyen secret de jouer sur le comportement du système. Les conséquences peuvent aller de l’erreur de diagnostic au blocage pur et simple du processus d’apprentissage du modèle.
L’objectif de la chaire est donc de mettre en place des solutions de défense pour écarter les entités participantes suspectes, et prévenir de telles attaques. Les scientifiques développent ainsi des outils pour que le serveur central soit capable d’identifier les mises à jour malhonnêtes. Mais, une fois développé, un modèle peut encore être répliqué à partir de ses paramètres ou de ses entrées et sorties.
La protection de la propriété intellectuelle des systèmes d’IA est ainsi un autre grand enjeu de la chaire Cybaile. « Nous l’avons vu, développer de tels systèmes est très long et complexe : cela requiert de l’expertise en data science et de la puissance de calcul, auxquels il faut ajouter les problématiques d’accès aux données, d’outils spécialisés, d’expertise médicale pour une pathologie donnée… », détaille Gouenou Coatrieux. « Ces modèles coûtent très cher donc il faut les protéger. » Pour éviter que les modèles ne soient copiés, les scientifiques de la chaire proposent donc de les tatouer.
Protéger par le tatouage
La technique du tatouage de données est étudiée depuis plusieurs années maintenant par Gouenou Coatrieux au sein d’IMT Atlantique. Elle consiste typiquement à modifier quelques pixels d’une image pour y coder un message, comme des identifiants, et est exploitée dans les services de vidéos à la demande (VOD) pour protéger les vidéos disponibles sur abonnement. « La technique n’empêche pas la fuite des données, mais elle permet d’identifier qui les a récupérées et revendues si ces données sont retrouvées ‘dans la nature’ », explique le chercheur. Et réciproquement. Ainsi, si un modèle est volé, il serait possible de prouver à qui il appartient grâce au message qui y est tatoué.
Concrètement, le tatouage d’un modèle d’IA consiste soit à changer sensiblement la valeur de ses paramètres, soit, de manière plus originale, à jouer sur le comportement du modèle. « Un réseau de neurones fournit une réponse pour une entrée donnée, on peut donc imaginer un marquage qui consiste en une réponse pour une entrée particulière », illustre Gouenou Coatrieux.
Les scientifiques étudient également l’approche de protection par chiffrement, pour que les traitements soient réalisés sur le cloud sans que ne soient connus ni les données en entrée, ni le résultat du calcul en sortie. Les différents outils prévus par la chaire sont testés au fur et à mesure sur les différentes plateformes mises à disposition par les partenaires, dont les centres de données cliniques du CHU de Brest ou encore le Cloud de l’Inserm. Des modèles fédérés d’IA ont déjà fait leur preuve pour classifier des images, pavant le chemin vers le développement de modèles sécurisés et robustes capables de segmenter des images médicales en trois dimensions.