Le codage de canal est une technique utilisée dans la plupart des standards de télécommunication (4G, 5G, wifi…) pour améliorer la fiabilité des transmissions de données. Lors de ces transmissions, des erreurs peuvent se produire en raison de diverses sources de bruit ou d’interférences, et corrompre le signal. « C’est comme quand vous êtes entourés de brouhaha au restaurant et que vous ne saisissez pas bien ce qu’on vous dit », illustre Elsa Dupraz, chercheuse en traitement de l’information à IMT Atlantique. « Par analogie, en télécommunication, une première option est de ‘parler’ – donc émettre – plus fort, mais cela nécessite aussi plus d’énergie. Une autre possibilité est de coder l’information. »
Le principe du codage de canal est d’introduire dans les données, avant qu’elles ne soient transmises, des informations supplémentaires appelées « redondances ». L’information étant constituée d’une suite de bits – l’unité de base, d’une valeur binaire 0 ou 1 – la redondance consiste à ajouter des bits supplémentaires dans cette suite. C’est un peu comme préciser à l’oral « M comme maman » : une redondance d’information est ajoutée pour lever l’ambiguïté entre les sons « M » et « N ». Bien sûr, en télécommunications, les choses sont plus compliquées. Les redondances sont exploitées de manière algorithmique par un décodeur pour identifier les erreurs et les corriger. Il existe plusieurs manières d’ajouter les redondances, et donc plusieurs familles de codes, parmi lesquels les turbocodes ou les LDPC, largement utilisés aujourd’hui.
Le codage de canal, Elsa Dupraz en a fait sa spécialité. Si la technique est bien maîtrisée dans les transmissions sans fil, la jeune chercheuse explore justement des applications dans des domaines moins conventionnels, parmi lesquels le calcul en mémoire ou le stockage sur ADN. Son implication dans des projets ambitieux, au croisement de plusieurs disciplines, lui valent de recevoir le Prix Espoir IMT-Académie des Sciences 2024.
La découverte fortuite d’une technologie multi-facette
Son intérêt pour le codage de canal s’éveille quand Elsa Dupraz est encore doctorante. Ses travaux de thèse portent sur la théorie de l’information et la compression, qui consiste à réduire la taille de l’information pour la transmettre plus rapidement. Elle découvre alors qu’une manière originale de compresser l’information est d’employer les techniques de codage canal. Mais c’est au cours de son post-doctorat, qu’elle passe en partie à l’université d’Arizona aux États-Unis, qu’elle constate la diversité d’application de ces techniques, y compris pour du stockage d’information.
« En France, le codage canal est très répandu dans les entreprises de la télécommunication qui sont solidement ancrées sur le territoire. Tandis qu’aux États-Unis, comme en Asie, l’écosystème industriel est aussi tourné vers le stockage de l’information et la fabrication de disques durs ou de mémoire RAM, ce qui favorise l’application du codage canal à d’autres contextes scientifiques », justifie la chercheuse. En 2015, Elsa Dupraz intègre IMT Atlantique (à l’époque Télécom Bretagne) et, inspirée par son séjour aux États-Unis, se penche sur les applications du codage de canal à d’autres secteurs que les télécommunications, dont le calcul en mémoire.
Limiter les transferts entre mémoire et processeurs en IA
En intelligence artificielle, les réseaux de neurones réalisent des calculs en appliquant notamment des matrices de poids aux données qui les traversent, afin d’ajuster leur importance. Au cours du processus d’apprentissage, chaque étape de calcul met à jour ces poids, et les stocke en mémoire. Lors du calcul suivant, les poids sont chargés depuis la mémoire vers les unités de calcul (comme dans des unités de traitement graphique, GPU). Puis, une fois les opérations mathématiques effectuées, les poids réajustés sont réenregistrés dans la mémoire. Et bis repetita.
Dans des réseaux de neurones très profonds ou complexes, avec un grand nombre de poids, l’aller-retour constant entre la mémoire et les unités de calcul est une opération coûteuse en temps et en énergie. Une optimisation consiste alors à effectuer les calculs là où les poids sont stockés, sans avoir à les transférer vers des processeurs externes : c’est le calcul en mémoire. De nos jours, les dernières technologies de mémoires RAM non volatiles – qui ne perdent pas leur information quand la mémoire n’est pas alimentée – sont capables de supporter de telles opérations, mais le calcul en mémoire reste encore de l’ordre du prototype.
Les mémoires sont effectivement moins fiables que les processeurs et introduisent des erreurs dans les calculs, nécessitant des mécanismes de correction. « Si on voit ces erreurs comme du bruit, mon objectif est de mesurer l’effet de ce bruit sur le résultat final du calcul, et d’utiliser le codage canal pour protéger les opérations du bruit », explique Elsa Dupraz. Entre 2019 et 2024, la chercheuse bénéficie pour ces travaux du soutien des programmes Transatlantic Research Partnership et Samuel de Champlain grâce à des collaborations scientifiques internationales, respectivement avec l’université de l’Illinois à Urbana-Champain, aux Etats-Unis, et Polytechnique Montréal, au Canada.
L’ADN, super disque dur naturel
Ces programmes achevés, la chercheuse dédie ensuite une grande partie de son énergie à un domaine d’application très différent : le stockage sur ADN. Face à des questionnements énergétiques de plus en plus prégnants concernant les data centers, l’ADN constitue depuis une dizaine d’année une piste de recherche sérieuse pour servir de support au stockage d’informations. De par sa densité, l’ADN pourrait stocker l’information de manière beaucoup plus compacte qu’elle ne l’est actuellement, en plus d’être durable et robuste. « L’ADN est résistant aux variations de température – tout comme les humains – ce qui n’est pas le cas des data centers qu’il faut constamment rafraîchir », précise Elsa Dupraz.
C’est ainsi que les scientifiques ont commencé à envisager la possibilité de stocker du contenu sur de l’ADN synthétique. Le principe est le même que pour la synthèse de médicaments : l’ADN est fabriqué en combinant les quatre bases nucléotidiques A, C, G, T, qui peuvent contenir chacune deux bits d’information. Là où certaines suites de bases produisent des molécules aux propriétés curatives, l’idée du stockage sur ADN est plutôt d’assembler les bases de manière à synthétiser des molécules « inactives ». En France, ces recherches sont structurées par le PEPR MoleculArXiv, sur lequel sont impliquées de nombreuses équipes de disciplines variées : informatique, biologie, chimie, ou encore biosécurité. Elsa Dupraz y met son expertise au service de la correction d’erreurs au niveau de deux opérations principales : la synthèse et le séquençage.
Double niveau d’erreurs
Aujourd’hui les défis principaux de la synthèse d’ADN consistent à augmenter la longueur des chaînes pour augmenter la capacité de stockage, et à réduire la durée du processus. « La synthèse est une opération très fiable – car à l’origine destinée à la fabrication de médicaments – mais très lente. Il faut plusieurs heures pour fabriquer une molécule d’ADN », complète Elsa Dupraz. Un des objectifs du PEPR est donc de développer des méthodes de synthèses plus rapides, quitte à tolérer une marge d’erreur. De fait, les premiers prototypes introduisent des anomalies dans l’écriture, comme l’insertion, la suppression ou la substitution de bases, auxquelles s’ajoutent des erreurs similaires issues du séquençage. « Le séquençage permet de décrypter l’ADN, mais la lecture n’est pas très sûre », appuie la chercheuse. « C’est là qu’intervient à nouveau le codage canal : pour tenter de retrouver l’information, voire de la protéger. »
Avec son équipe, elle a donc conçu un modèle statistique pour caractériser et corriger les erreurs spécifiques à ces problématiques. « Dans le codage canal appliqué aux télécommunications sans fil, les modèles sont bien maîtrisés. Il en existait quelques-uns pour le calcul en mémoire, mais ceux disponibles pour le stockage sur ADN n’étaient pas assez précis pour être utilisés ». Pour élaborer un modèle adapté, la chercheuse a pu compter sur les données – messages originaux et lectures – fournies par une équipe de bio-informatique, déjà partenaire sur un précédent projet financé par le Labex Cominlabs, dnarXiv. Ce modèle, incorporé dans le décodeur, a ainsi rendu possible la correction des erreurs au niveau de la synthèse, comme du séquençage.
Une approche innovante pour compresser les données
Si les travaux d’Elsa Dupraz se concentrent largement sur la construction de codes canal pour améliorer les transmissions, la chercheuse explore également des utilisations plus singulières de cette technique, comme la compression de données, déjà abordée au cours de sa thèse. Communément, le codage de canal introduit des redondances, allongeant un message, mais le procédé peut être inversé pour le compresser.
Bien que cette méthode soit moins efficace que les techniques classiques de compression, elle préserve mieux la structure des données, facilitant leur traitement par des modèles d’apprentissage. Les techniques de compression standards altèrent en effet la structure des données, alors difficilement exploitables pour l‘apprentissage automatique. Elsa Dupraz étudie ainsi la possibilité d’appliquer des modèles d’IA directement sur des données compressées à l’aide de codes canal. Preuve, si elle était encore nécessaire, de la grande polyvalence de cette technique et de sa chercheuse.