Pourquoi parle-t-on de réseaux de « neurones » ?
Stephan Clémençon : L’idée derrière les réseaux de neurones artificiels est de modéliser une décision à partir d’une information d’entrée, en imitant la prise de décision par un être humain. La référence biologique n’est qu’une métaphore. L’intelligence des réseaux de neurones artificiels repose sur le calcul et n’a rien à voir avec l’intelligence humaine. Le cerveau n’a pas livré ses secrets au point de pouvoir mettre son fonctionnement en équation…
Comment fonctionnent-ils ?
SC : Un réseau de neurones consiste en une superposition de couches de nœuds de calcul, dits neurones formels : une couche d’entrée, une ou plusieurs couches cachées, et une couche de sortie. Les nœuds correspondent à des unités de calcul effectuant d’abord des multiplications et des additions pour obtenir un résultat (un produit scalaire précisément), dont l’image par une fonction dite « d’activation » est ensuite calculée.
Lorsqu’une information est envoyée à un réseau de neurones, chaque nœud de la première couche réalise ce calcul en appliquant des poids – les paramètres du réseau – aux différentes composantes de l’information. Imitant de façon simplifiée la transmission synaptique des neurotransmetteurs dans le cerveau biologique, les résultats du calcul sont ensuite transmis aux neurones/nœuds de la couche suivante. L’information est propagée au gré de la structure de connexion du réseau, jusqu’à la couche de sortie, permettant d’obtenir les résultats encodant la décision.
Comment sont nés les réseaux de neurones ?
SC : Ce sont des chercheurs en neurologie, McCulloch et Pitts, qui sont les premiers dans les années 40 à proposer un modèle mathématique du neurone cérébral, appelé « neurone formel ». Dans les années 50, le psychologue Frank Rosenblatt propose le premier algorithme d’apprentissage automatique, le perceptron. Celui-ci permet d’apprendre les paramètres du modèle de neurone formel (les poids) de façon à optimiser ses capacités prédictives. Mais il nécessite pour cela des données labellisées, représentant les informations d’entrée et les réponses souhaitées.
Le paradigme de l’apprentissage est d’entraîner les modèles d’IA à faire des prédictions en reproduisant l’« existant », c’est pourquoi il faut des exemples. Or à l’époque, la disponibilité des données labellisées était très limitée. On se limitait donc à entraîner des modèles de machine learning très frustes en comparaison de l’apprentissage profond (deep learning) en cours aujourd’hui.
Comment est-on passé de l’apprentissage « automatique » à l’apprentissage « profond » ?
SC : Il y a un long « hiver » des réseaux de neurones pendant lequel la technologie ne rencontre pas de succès dans les applications. Avec les progrès de la théorie et de l’algorithmie, la plupart des concepts sont bien documentés dans la littérature scientifique. Mais il manque les masses de données et la puissance de calcul pour paramétrer des réseaux de neurones de plus en plus profonds, avec un nombre croissant de couches et de neurones par couches.
Ce sont les données du web qui donnent un second souffle à la recherche, en particulier la recherche appliquée, sur les réseaux de neurones. Le développement s’accélère à partir des années 2010 avec le big data et la disponibilité de masses de données labellisées, notamment des images pixelisées (ImageNet), dont l’analyse est facilitée par l’utilisation des cartes graphiques.
Le développement des réseaux de neurones est depuis rythmé par les applications, correspondant à la réalisation de tâches de plus en plus complexes : reconnaissance visuelle, écoute automatique, capacité à jouer à des jeux combinatoires (AlphaGo)… Aujourd’hui, les progrès les plus spectaculaires sont relatifs au traitement automatique du langage naturel (TALN).
Existe-t-il différents types de réseaux de neurones pour ces différentes applications ?
SC : Il y a en effet une grande variété de structures de réseaux de neurones. Parmi les principaux modèles, on trouve le multilayer perceptron (MLP), qui correspond au réseau neuronal de base, le convolutional neural network (CNN) dont la structure redondante s’inspire de celle du cortex visuel, utilisé principalement pour les images, ou encore le recurrent neural network (RNN) pour les signaux audios ou les séries temporelles notamment.
En fonction des données disponibles, il faut tester différentes architectures et en mesurer les performances. Cette exploration peut être accélérée avec du machine learning automatisé (AutoML), mais cela demande des ressources de calcul importantes, soulevant des questions sur la frugalité de l’IA.
Quels sont les enjeux spécifiques du TALN ?
SC : Pour mettre en œuvre l’apprentissage automatique, toutes les informations d’entrée et de sortie – les images, les signaux sonores… – sont transformées en nombres, ce qui est compliqué à faire pour du texte. Une des approches possibles est le plongement lexical, une méthode d’apprentissage qui représente les mots par des vecteurs et permet d’apprendre à prédire les prochains mots d’une phrase en fonction du contexte ; on parle d’auto-supervision. Le modèle Word2Vec, élaboré par Google en 2013, fût l’un des premiers et des plus connus à mettre en œuvre cette méthode.
Depuis 2022, ce type de technologie est supplanté en pratique par les modèles transformers, plus efficaces pour analyser et produire des réponses en langage naturel. Ces modèles, aussi qualifiés de grands modèles de langage (LLM), font fonctionner ce que l’on appelle aujourd’hui l’IA « générative », c’est-à-dire capable de générer du contenu : résumer du texte, répondre à des questions, créer des images, des signaux sonores, etc. Ce type d’IA ouvre de vastes perspectives, difficiles à délimiter.
Quels sont justement les risques liés à l’IA et aux réseaux de neurones ?
SC : Sans les énumérer tous, il y a d’abord un « biais de modèle » : un modèle mathématique n’est pas la réalité, il n’en offre qu’une représentation. Les modèles de réseau de neurones sont populaires car ils sont parfaitement maîtrisés du point de vue numérique, et reproduisent efficacement les données existantes dans de nombreuses situations. Mais rien ne permet de dire que d’autres types de fonction mathématique ne feront pas mieux dans le futur.
Ensuite, il y a un biais d’échantillonnage lors de l’apprentissage des paramètres de ces modèles. Puisqu’il est évidemment impossible d’être exhaustif dans la phase d’entraînement, les modèles « généralisent » à partir d’un nombre fini d’exemples, et cette généralisation est souvent accompagnée d’une erreur.
Certes, avec le big data, ce type de biais, d’erreur statistique, a drastiquement baissé. Mais en l’absence de contrôle sur le protocole d’acquisition, les données utilisées pour l’IA ne sont pas forcément représentatives de la population cible ou du phénomène analysé. Ce biais de sélection peut conduire à de grandes disparités de performance : si on déploie par exemple un réseau de neurones pour faire de la vérification d’identité avec de la reconnaissance faciale sur des populations très peu représentées dans la base d’images d’entraînement. Sans parler du fait que certaines données sont faciles à manipuler ou à corrompre, ou que l’exploitation de données protégées pose des problèmes juridiques de copyright…
L’IA fait donc encore beaucoup d’erreurs malgré la masse de données disponibles ?
SC : L’expressivité des modèles, le nombre et la représentativité des données permettent de se rapprocher d’un niveau d’erreur optimal, mais pas nécessairement nul ! Certaines tâches présentent des difficultés intrinsèques : il est très probable qu’un algorithme de reconnaissance faciale fonctionne mal sur certaines populations comme les nouveau-nés ou les personnes avec lunettes et barbe, sachant que même l’œil humain a parfois du mal à faire la différence. Il y a aussi des domaines comme la biologie ou la finance, où les phénomènes analysés ne sont que très partiellement déterminés par les observations disponibles : l’évolution des marchés financiers ou d’une cellule cancéreuse n’est pas écrite dans les données…
Cela dit, avec les développements récents, le niveau d’erreur commis par l’IA pour des problèmes tels que l’analyse d’images ou la reconnaissance vocale s’est considérablement réduit, au point de surpasser celui de l’expertise humaine. Et si l’on peut se réjouir d’un tel succès, il faut aussi avoir conscience que des modèles si performants induisent le risque d’être détournés à des fins malveillantes, comme pour la création de faux visages, l’imitation de voix ou la rédaction de textes trompeurs.
Vous avez abordé la question de la frugalité de l’IA. Quelle place cela occupe-t-il dans les développements actuels et à venir ?
SC : À l’origine, la recherche sur les réseaux de neurones était principalement focalisée sur leurs performances prédictives et les questions de calcul pour le passage à l’échelle. Même si l’« économie du calcul » a toujours été un sujet de préoccupation essentiel, la complexité des modèles et la redondance des données étaient vues avant comme des atouts. Désormais, avec l’explosion des usages, notamment de l’IA générative, il est crucial de réfléchir à la consommation des algorithmes d’apprentissage et des modèles qui sont très énergivores. Ce qui est complexe à quantifier car il faut aussi tenir compte du type d’infrastructure de calcul sur lequel l’algorithme est mis en œuvre ou le modèle déployé.
La communauté scientifique s’est bien sûr emparée avec force de ce sujet. Dans ce contexte, l’apprentissage distribué, l’edge computing et la compression des réseaux neuronaux deviennent des sujets méthodologiques majeurs, sur lesquels travaillent d’ailleurs des chercheurs et chercheuses de Télécom Paris. Ceci-dit, avec l’ubiquité des technologies numériques, la question de la frugalité de l’IA devrait interpeller plus largement la société, et appeler à une réflexion collective sur une éventuelle modération de certains usages.