Sur la route des vacances, il n’est pas rare de rouler aussi bien aux côtés d’automobiles dernier cri que de modèles iconiques, fleurant bon la nostalgie. L’année 2023 marque particulièrement l’anniversaire symbolique de nombreuses voitures françaises, jusqu’à 60 ans pour certaines ! Un coup d’œil dans le rétroviseur de l’industrie automobile permet de réaliser le chemin parcouru sur ces dernières décennies. Loin des systèmes 100 % mécaniques d’antan, les voitures sont aujourd’hui équipées de nombreux composants électroniques d’une grande complexité, et sont de plus en plus connectées.
Cette connectivité soulève d’importantes problématiques, notamment liées à la sécurité des systèmes informatiques qui centralisent de nombreuses fonctionnalités dans les véhicules. Ces architectures complexes sont susceptibles de comporter des failles que des pirates pourraient exploiter en vue d’attaque. Lors d’un piratage à distance, un hacker est capable de brouiller les signaux des capteurs d’un véhicule, le faire rouler à une certaine vitesse ou encore le rendre incontrôlable, induisant un risque considérable pour les usagers du véhicule et ceux environnants. En conséquence, la cybersécurité à bord des véhicules connectés fait l’objet de nombreuses régulations et recherches.
La chaire Connected Cars and Cybersecurity (C3S) de Télécom Paris se concentre justement sur ces thématiques, avec un axe particulièrement dédié à l’analyse des risques de cyberattaque sur un véhicule connecté. Natasha Alkhatib a été doctorante au sein de la chaire C3S et a conduit des recherches sur la détection d’intrusion dans le système d’un véhicule, grâce à l’intelligence artificielle. Elle s’est appuyée pour cela sur des algorithmes d’apprentissage profond (deep learning).
Une solution unique grâce au transfert d’apprentissage
Une unité de commande électronique (UCE) est un système embarqué qui contrôle un ou plusieurs sous-systèmes dans le véhicule, en se basant sur les signaux de capteurs. L’aide à la conduite, l’anti-patinage ou encore le contrôle automatique de la pression des pneus font partie des UCE standards d’une automobile actuelle. Un véhicule comporte donc de nombreuses UCE – jusqu’à une centaine pour les plus équipés – qui échangent entre elles via un système de communication, appelé bus informatique. Lorsque le véhicule est autonome, l’ensemble des signaux transmis par les capteurs doit être pris en compte pour que le véhicule prenne les bonnes décisions de conduite.
La détection d’une intrusion requiert donc un système intégré dans le véhicule qui prenne en considération tous les signaux, et adaptable à tous les modèles, quel que soit le constructeur. Le système développé par les équipes de Télécom Paris satisfait à ces deux conditions. Bien qu’il ne soit pas capable d’identifier quel signal correspond à quel capteur, les signaux sont traités par « paquets » et catégorisés en un flux normal ou anormal. Si un pirate a modifié le contenu des informations, le système identifie l’anormalité car le flux de données diffère du comportement habituel. L’attaque est alors détectée et le système alerte le conducteur – en lui suggérant par exemple de se garer immédiatement.
Ce système s’adapte également à toutes les architectures automobiles et appareils électroniques embarqués grâce à l’apprentissage par transfert. Cette technique de machine learning fait qu’un système reconnait et applique des connaissances et des compétences acquises antérieurement à de nouvelles tâches similaires. Ainsi, le même algorithme entrainé sur les données d’un modèle de voiture spécifique peut être réglé sur un autre. « Dès qu’un nouveau véhicule nous intéresse, nous pouvons lui adapter notre algorithme en modifiant très peu de paramètres », explique Natasha Alkhatib. « Cette fonctionnalité permet de cibler un large panel de véhicules, au lieu de devoir développer un seul produit pour un seul véhicule. » Elle permet en outre d’économiser de la puissance de calcul – pour l’entraînement des algorithmes – et de gagner du temps sur la collecte de données propres à chaque véhicule.
Un manque de données pour modéliser toutes les attaques
Car ce fut bien l’un des principaux défis à relever dans le développement de cet outil de détection : le manque de données disponibles. « Tout comme on ne peut pas conduire une voiture sans carburant, on ne peut pas entraîner un algorithme de deep learning sans données », souligne la jeune chercheuse. Afin de bien exécuter sa tâche de détection, un algorithme de deep learning nécessite énormément de données issues des véhicules.
Or, peu de constructeurs automobiles mettent en ligne des lots de données concernant leurs véhicules. De nombreux scénarios d’attaque manquent et si un scénario n’est pas modélisé, il ne peut pas être détecté. Les données doivent en outre être étiquetées pour que l’algorithme apprenne à reconnaitre les situations d’attaques des situations normales, et les classifier. Le meilleur moyen d’obtenir des données est donc de réaliser soi-même des attaques.
Les « White hats » sont des hackers éthiques qui réalisent des tests d’intrusion afin de découvrir les failles de sécurité des systèmes d’information. En diffusant leurs découvertes et en proposant des pare-feu, ils contribuent à lutter contre les hackers malintentionnés. Le Hacking and Countermeasure Research Lab publie ainsi de nombreux ensembles de données issues du piratage de véhicules par des « Whites hats » – sans en divulguer la marque. L’entreprise Bosch, qui produit de l’électronique pour les voitures, fournit également un ensemble de données appelé SynCAN permettant de comparer différents systèmes de détection d’intrusion, sur différents scénarios d’attaque.
Nouveaux véhicules, nouvelles technologies
Un second problème relatif aux lots de données concerne leur obsolescence. Chaque nouvelle génération de véhicule s’accompagne de nouveautés technologiques, au niveau des UCE, des capteurs, du système de transmission des informations… « Il est essentiel de travailler sur des ensembles de données qui représentent réellement ce qui se passe à l’intérieur d’un véhicule aujourd’hui, car nous ne pouvons pas développer une solution pour des véhicules récents si nos ensembles de données datent de 2009 ! », alerte Natasha Alkhatib.
Le bus de données CAN (Controller Area Network) est la méthode de communication standard entre les UCE. Le CAN remonte à 1986, c’est un système de transmission robuste et fiable, mais qui n’est pas en mesure de transmettre de grandes quantités d’informations. Lors d’un stationnement autonome, par exemple, les caméras situées autour du véhicule envoient des vidéos à l’UCE, qui doit décider s’il faut tourner les roues à gauche ou à droite pour ajuster la position du véhicule. Une telle technologie nécessite l’envoi de mégabits de données qui vont bien au-delà de la simple information pour savoir si les phares sont allumés ou non. En outre, le bus CAN n’est pas « Secure-by-design » : il suffit d’en connaître les vulnérabilités pour accéder aux données transmises et exploiter le véhicule.
Depuis quelques années, les équipementiers et constructeurs automobiles utilisent donc la technologie Ethernet, plus adaptée pour transmettre des informations à haut débit et plus sécurisée. « S’il y a une attaque sur la vidéo qui est transmise en Ethernet, nous avons besoin d’un système de détection d’intrusion qui s’applique à l’Ethernet, et non au CAN », insiste Natacha Alkhatib. Comme jusqu’alors la littérature était particulièrement centrée sur le CAN, la jeune chercheuse a développé son propre ensemble de données : « Malgré le défi, nous avons trouvé des vulnérabilités sur l’Ethernet et simulé des attaques. Puis nous avons généré et étiqueté la donnée pour alimenter notre algorithme de détection. »
Étant donné que le CAN sera toujours présent dans les véhicules pour prendre en charge des fonctionnalités basiques (typiquement la détection de l’allumage des phares), Natasha Alkhatib a travaillé sur une solution adaptable aux deux systèmes de transmission d’informations. Quoiqu’il en soit, ses travaux ont ouvert la voie à de nombreux acteurs de la recherche. « Il a fallu un an d’état de l’art avant de nous lancer sur l’Ethernet, mais nous étions convaincus de l’avenir de cette technologie et nous avons posé les jalons de la recherche en la matière » conclut-elle avec fierté.
Par Ingrid Colleau.