Quèsaco le machine learning ?

Le machine learning est un domaine de l’intelligence artificielle, à l’interface des mathématiques et de l’informatique. Il vise à apprendre à des machines à effectuer certaines tâches, souvent prédictives, à partir de masses de données. Reconnaissance de texte, d’image ou vocale, le machine learning est également appliqué pour élaborer des moteurs de recherche ou les systèmes de recommandation des sites marchands. Il s’agit plus largement d’un corpus de théories et de méthodes d’apprentissage statistique, englobant le deep learning. Stephan Clémençon, chercheur à Télécom ParisTech et spécialiste du Big Data, nous explique ce qui se cache réellement derrière ces termes.

Qu’est-ce que le machine learning ou apprentissage automatique ?

Stéphan Clémençon : Le machine learning c’est l’idée d’apprendre à des machines à prendre des décisions efficaces dans un cadre prédéfini, via des algorithmes nourris par des exemples (les données de l’apprentissage). Le programme d’apprentissage permet à la machine d’élaborer un système de décision généralisant ce qu’elle aura « appris » de ces exemples. Le fondement théorique de cette approche dit que si mon algorithme recherche dans un catalogue « pas trop complexe » des règles de décision qui fonctionnent bien sur des données d’exemples, alors il y a des garanties pour qu’elles continuent à bien fonctionner sur les données futures. On parle alors de capacité de généralisation des règles apprises statistiquement.

Le machine learning est-il favorisé par le Big Data ?

SC : Tout à fait. Le principe statistique du machine learning repose sur la représentativité des exemples servant à l’apprentissage. Plus il y a d’exemples et donc de données d’apprentissage disponibles, plus il y a de chances d’atteindre des règles optimales. Avec l’arrivée du Big Data, on accède au « paradis fréquentiste » du statisticien. Mais ces mégadonnées posent aussi des problèmes de calcul et de temps d’exécution. L’accès à une information aussi massive nécessite d’être distribuée dans un réseau de machines. Il faut désormais comprendre comment trouver des compromis entre quantité d’exemples à présenter à la machine et temps de calcul. Certaines infrastructures sont rapidement pénalisées par la volumétrie des masses de données (textes, signaux, images ou vidéos) rendues disponibles par la technologie moderne.

Justement à quoi ressemble un problème de machine learning ?

SC : En réalité il existe plusieurs sortes de problèmes. Certains sont dits « supervisés » car la variable à prédire a été observée sur un échantillon statistique. Un exemple d’apprentissage supervisé majeur à l’époque où le machine learning a commencé, était de permettre à une machine de reconnaître l’écriture manuscrite. Pour cela, on alimentait sa base de données avec de nombreuses images « pixélisées » tout en précisant à la machine ceci est un « e », ceci est un « a », etc. On entraînait l’ordinateur à reconnaître la lettre que l’on écrivait sur une tablette. En observant l’écriture manuscrite d’un caractère de nombreuses fois, on favorise sa reconnaissance future par la machine.

D’autres problèmes sont non supervisés, cela veut dire que les labels ou les étiquettes sur les observations ne sont pas disponibles. C’est le cas par exemple du S-Monitoring utilisé dans la maintenance prédictive. Ce qui est anormal doit être appris par la machine pour lui permettre de lancer une alerte. La rareté d’un évènement remplace le label d’une certaine manière. C’est un problème beaucoup plus difficile car on ne peut pas vérifier le résultat immédiatement, une expertise ultérieure sera nécessaire, et le coût des fausses alarmes peut s’avérer très élevé

D’autres problèmes requièrent de résoudre un dilemme entre exploration des possibles et exploitation des données passées, on parle d’apprentissage par renforcement. Il en va ainsi de la recommandation personnalisée. En retargeting par exemple, des bandeaux publicitaires sont programmés pour vous proposer des liens en rapport avec vos centres d’intérêts pour que vous cliquiez dessus. Mais si on ne vous propose jamais de littérature classique sous prétexte que vous n’avez pas encore d’historique de recherche sur le sujet, on ne pourra pas déterminer efficacement si de tels contenus sont susceptibles de vous intéresser. Autrement dit, l’algorithme aura également la tâche d’explorer des possibles et non plus seulement d’exploiter les données.

Pour résoudre ces problèmes, le machine learning s’appuie sur différents types de modèles comme les réseaux de neurones artificiels ; en quoi ça consiste ?

SC : Les réseaux de neurones sont une technique dont le principe général est assez ancien et qui remonte à la fin des années 50. Cette technique est imagée par le modèle du fonctionnement d’un neurone biologique. Au départ, on a une information – elle serait l’équivalent d’une stimulation en biologie – qui arrive au niveau du neurone. Selon si l’on se trouve au-dessus ou au-dessous d’un seuil d’activation, l’information transmise déclenchera ou non une décision/action. Ce qui se passe, c’est qu’une seule couche de neurones peut s’avérer fournir une représentation trop simple pour interpréter l’information d’entrée originale.

En superposant des couches de neurones, avec un nombre éventuellement variable de neurones dans chaque couche, on crée de nouvelles variables explicatives, combinaisons des sorties de la couche précédente. Les calculs s’enchainent couche par couche jusqu’à l’obtention d’une fonction complexe qui représente le modèle final. S’ils s’avèrent très prédictifs pour certains problèmes, il est très difficile d’interpréter les règles prenant la forme de réseaux de neurones, c’est une boîte noire.

Le deep learning, on en entend beaucoup parler ces derniers temps, c’est quoi concrètement ?

SC : Le deep learning est un réseau de neurones profond, c’est-à-dire constitué de très nombreuses couches qui se superposent. Cette méthode peut aujourd’hui être mise en œuvre grâce aux technologies modernes, lesquelles permettent d’effectuer des calculs massifs permettant à des réseaux très complexes de bien s’ajuster aux données. Cette technique, à laquelle de nombreux ingénieurs dans le domaine des sciences et technologies de l’information sont rodés, connaît actuellement un succès indéniable dans le domaine de la vision par ordinateur. Le deep learning s’avère particulièrement adapté à la biométrie et à la reconnaissance vocale par exemple, mais ses performances sont beaucoup plus contrastées lorsqu’il s’agit de traiter des problèmes pour lesquels l’information d’entrée disponible ne détermine pas complètement la variable de sortie, comme en biologie ou en finance.

Si le deep learning est le présent du machine learning, quel est son avenir ?

SC : A mon sens, la recherche en machine learning se concentrera en particulier sur les situations où le système décisionnel interagit avec l’environnement qui produit les données, comme dans le cas du renforcement. L’idée revient à dire qu’on va apprendre sur une trajectoire plutôt que sur une collection d’exemples fixes dans le temps, supposés capturer toute la variabilité du phénomène une fois pour toutes. Or, on étudie de plus en plus des phénomènes dynamiques, avec des interactions complexes, comme la diffusion d’informations sur des réseaux sociaux. Ce sont des aspects le plus souvent ignorés par les techniques actuelles de machine learning, et laissés aujourd’hui à des approches de modélisation reposant sur l’expertise humaine.