Les ontologies : des outils puissants pour l'aide à la décision

Rechercher, extraire, analyser et partager l’information pour prendre la bonne décision requiert une forte expertise. Pour que les machines assistent efficacement l’opérateur humain dans ces tâches à haute valeur cognitive, il faut les doter d’une « connaissance » du monde. À Mines Alès, Sylvie Ranwez élabore depuis de nombreuses années des traitements innovants basés sur les ontologies.

Comment se retrouver dans les méandres du Net et sa foultitude d’informations parfois contradictoires ? Et comment donner du crédit aux informations extraites qui peuvent ensuite servir de base à des raisonnements ou être intégrées à des processus décisionnels ? Pendant de nombreuses années, la recherche d’information par mots-clés a été considérée comme la bonne solution, mais pour faire face à la masse d’informations et à leur hétérogénéité, les recherches actuelles privilégient la prise en compte de la connaissance d’un domaine, modélisée par des ontologies. C’est dans cette lignée que s’inscrit la recherche que mène depuis 2001 Sylvie Ranwez à Mines Alès, au sein de l’équipe KID (Knowledge representation and Image analysis for Decision). Cette équipe a pour objectif le développement de modèles, de méthodes et de techniques pour aider l’opérateur humain confronté à la maîtrise d’un système complexe, qu’il soit technique, social ou économique, en particulier dans un contexte de prise de décision. Sylvie Ranwez consacre ses recherches à l’utilisation des ontologies comme support à l’interaction et à la personnalisation dans un tel contexte.

Le concept philosophique d’ontologie est l’étude de l’être en tant qu’entité et de ses propriétés générales. En informatique, cette idée revient à décrire un domaine de connaissances par un ensemble de concepts, leurs caractéristiques et leurs relations, et ce pour être analysables aussi bien par les humains que par les ordinateurs. « Si cette problématique est beaucoup plus ancienne, l’appellation d’ontologie a émergé dans les années 1990, reconnaît Sylvie Ranwez. Aujourd’hui de nombreux domaines possèdent leur ontologie. » La construction d’une ontologie commence avec l’aide des experts d’un domaine ayant une connaissance de toutes les entités qui le caractérisent et de leurs liens. Cela se fait par des réunions, des entretiens et des allers-retours afin de comprendre au mieux le domaine concerné. Puis les concepts sont intégrés dans un ensemble cohérent, et codés.

Des requêtes plus efficaces

Cette connaissance peut alors être intégrée à différents processus, par exemple l’indexation de ressources et la recherche d’information. Ce qui permet des requêtes dont les résultats sont bien plus riches que la méthode des mots-clés. Par exemple, la base PubMed, qui recense l’ensemble des publications biomédicales internationales, s’appuie sur le MeSH (Medical Subject Headings) qui permet d’indexer toutes les parutions biomédicales et facilite les requêtes.

En général, la construction d’une ontologie commence par un premier jet qui comprend de 500 à 3000 concepts et s’étoffe au gré des retours des utilisateurs. La Gene Ontology, qui sert aux biologistes du monde entier à identifier et annoter des gènes, comprend aujourd’hui plus de 30 000 concepts et grossit toujours. « Il ne suffit pas d’ajouter des concepts, avertit Sylvie Ranwez. Il faut vérifier que l’ajout ne modifie pas l’ensemble ».

[box type= »shadow » align= » » class= » » width= » »]Unifier les disciplines

Parmi les études effectuées par Sylvie Ranwez, ToxNuc-E (toxicologie nucléaire et environnementale) regroupait à la fois des biologistes, des chimistes, des physiciens du CEA, de l’Inserm, de l’Inra et du CNRS. Mais la définition de certains termes diffère selon la discipline et, réciproquement, un même terme peut avoir deux définitions différentes. Le groupe ToxNuc-E a fait appel à Sylvie Ranwez et à Mines Alès afin de pouvoir décrire le sujet d’étude, mais aussi de faire partager des valeurs communes à ces chercheurs de disciplines différentes. L’ontologie de ce domaine est désormais en ligne et utilisée pour indexer des documents scientifiques du projet.

Le bénéfice des ontologies, souvent mis en avant par les spécialistes des domaines concernés, est l’apport de ces travaux dans l’unification de leur discipline. Disposant de ces ontologies, ils peuvent alors procéder à différents traitements, souvent basés sur les mesures de similarité sémantique (sujet de thèse de Sébastien Harispe qui a donné lieu à la publication d’un ouvrage en anglais) ; ces traitements vont de l’indexation de ressources, à la recherche d’information en passant par la classification (travail de Nicolas Fiorini, lors de sa thèse encadrée par Sylvie Ranwez).[/box]

Des ontologies ciblées ou génériques

La première ontologie à laquelle Sylvie Ranwez s’est attelée, durant sa thèse au laboratoire de génie informatique et ingénierie de production (LGI2P) de Mines Alès, est celle de la musique, un domaine qu’elle connaît bien puisqu’elle est chanteuse amateur. Il s’agissait, bien avant l’avènement des MOOC, de modéliser à la fois ce domaine et celui de la pédagogie afin de proposer des cours à distance personnalisés sur la musique. Elle s’est lancée ensuite dans celle du football, sous l’impulsion du directeur de thèse Michel Crampes. « En pleine Coupe du monde, le but était de pouvoir générer automatiquement des résumés personnalisés de matchs », se souvient-elle. Puis des travaux ont été engagés sur d’autres sujets avec des sociétés privées ou des établissements de recherche comme le CEA. Un autre axe de recherche de Sylvie Ranwez est l’ontology learning qui permettrait de construire automatiquement des ontologies à partir de l’analyse de textes. Mais il est très difficile de passer des mots aux concepts du fait des ambiguïtés inhérentes aux formulations. L’humain est encore indispensable.

Élaborer une ontologie pour chaque domaine et pour différents types d’application est un processus coûteux et chronophage, puisqu’il requiert de nombreux experts et suppose que ceux-ci arrivent à un consensus. Des recherches ont donc été initiées autour d’ontologies dites génériques. Aujourd’hui DBpedia, née en Allemagne à partir des connaissances de Wikipedia, couvre de nombreux domaines et repose sur une telle ontologie. Cela se traduit, lors d’une recherche sur le web, par l’apparition, en haut à droite de la page des résultats, d’informations génériques sur le sujet demandé. Par exemple : « Pablo Ruiz Picasso, né à Malaga, Espagne, le 25 octobre 1881 et mort le 8 avril 1973 à Mougins, France, est un peintre, dessinateur et sculpteur espagnol ayant passé l’essentiel de sa vie en France. »

Cette information multiforme et répartie sur la toile ne va pas sans soulever certains problèmes : on peut se poser la question de la fiabilité des informations. C’est la thématique actuelle de Sylvie Ranwez. En effet, dans un contexte de web sémantique, les données sont ouvertes et expriment certains faits. Quelquefois les informations sont contradictoires. Comment détecter les bonnes des fausses ? L’approche statistique habituelle (la majorité a raison) comporte des biais. Il suffit en effet de « spammer » une information fausse afin qu’elle inonde les réponses et devienne majoritaire. Avec les ontologies, les informations sont renforcées par l’ensemble des concepts qui ont des liens entre eux. Une information fausse sera détectée plus facilement. De façon connexe, une des problématiques abordées dans l’équipe de Sylvie Ranwez concerne la détection et la gestion d’incertitudes. Exemple : un site peut annoncer que tel médicament guérit telle maladie. Un autre ajoutera « il se pourrait que… ». Or, dans un environnement de décision, il faut être capable de déceler l’incertitude d’une information et savoir la mesurer. L’utilisation d’ontologies pour extraire, rechercher ou analyser des informations n’a pas fini de dévoiler ses atouts.

Un parcours atypique

Sylvie Ranwez est arrivée à la recherche par des chemins détournés. Après son baccalauréat scientifique, elle a suivi les cours de deux DUT. Le premier, en mesures physiques, lui a permis de se confronter à des disciplines aussi diverses que la chimie, l’optique ou l’informatique. Elle a approfondi cette dernière discipline lors d’un deuxième DUT, puis s’est inscrite à l’école d’ingénieurs EERIE (école pour les études et la recherche en informatique et électronique) dans la spécialité d’intelligence artificielle. Parallèlement à sa troisième année d’ingénieure, elle a décroché son DEA en informatique, puis a enchainé sur une thèse au LGI2P de Mines Alès, dont la première année s’est déroulée en Allemagne dans le laboratoire de Digital Equipment de Karlsruhe. En 2001, aussitôt après ce diplôme, sans passer par l’habituel apprentissage de la recherche en tant que post-doctorant à l’étranger, elle a intégré l’équipe KID du LGI2P où elle est habilitée à diriger des recherches depuis 2013. Au vu de son univers très technologique, on pourrait la croire geek. Détrompez-vous. Elle n’a pas de mobile. Et n’en veut pas.

Rédaction : Umaps, Jacques-Olivier Baruch

Retrouvez ici tous les articles de la série « Carnets de labos »