Le domain gap révèle l’incapacité des modèles à généraliser d’un milieu à un autre, ou à intégrer la variabilité d’un environnement complexe comme les écosystèmes tropicaux. La diversité des milieux naturels rend ainsi illusoire la promesse d’un « super-modèle ». « De toutes façons, pour l’instant, il n’est pas concevable qu’un modèle unique soit en mesure de classifier toutes les espèces animales de tous les continents », soulève Jhony Giraldo.
Un entraînement exhaustif ne résoudrait en effet pas les problèmes de reconnaissance. Les modèles d’IA entraînés de manière classique ne s’adaptent pas en continu : une fois figés, ils ne reconnaissent que ce qu’ils ont appris, et ignorent tout ce qui échappe à leur corpus initial. Or de nouvelles espèces sont régulièrement découvertes, rendant obsolètes les modèles existants qui doivent alors être réentraînés depuis zéro.
Du langage pour mieux voir
Pour contourner ces limites, Jhony Giraldo explore une stratégie multimodale : intégrer du langage naturel aux outils de classification. En couplant les modèles d’image avec des modèles de langage de grande taille (LLM), le chercheur espère mieux caractériser les espèces peu représentées en données. « L’idée, c’est de demander au LLM quelles sont les caractéristiques des différents animaux, et d’utiliser cette information pour classifier de manière plus fine. »
Mieux encore : les biologistes pourraient enrichir manuellement la base en ajoutant des descriptions d’espèces récemment découvertes. Par exemple, dès lors qu’une nouvelle espèce d’oiseau est identifiée, il serait possible d’ajouter une description précise de ses caractéristiques physiques — couleurs, motifs, morphologie — afin que le modèle puisse les repérer dans les images et identifie précisément ce spécimen, même sans y avoir été entraîné. « Cette intégration humaine dans la boucle améliorerait considérablement la capacité d’adaptation du modèle à des espèces nouvelles ou rares », estime le chercheur. Le modèle n’a alors plus besoin d’être réentraîné à chaque mise à jour, allégeant considérablement le coût opérationnel.
Cette approche contribuerait de fait à résoudre le problème de l’ambiguïté visuelle entre espèces « cousines », parfaitement illustré par la redécouverte du Tohi de Blanca en Antioquia. « Si on essaie d’utiliser un modèle préentraîné pour classifier le Tohi de Blanca sans avoir fait de “mise à jour”, le modèle va très probablement catégoriser cette espèce comme un Tohi ardoisé ou un Tohi à miroir, beaucoup plus répandus, et très similaires. » L’apport du texte permet alors de mettre en avant les traits distinctifs — comme les dégradés de couleur sur la gorge, et d’affiner la classification.
Des modèles à géométrie variable
Les outils mobilisés sur ces projets prolongent les travaux plus fondamentaux de Jhony Giraldo autour de l’apprentissage profond géométrique (Geometric Deep Learning ou GDL). Au-delà de la biodiversité, ces techniques — parmi lesquelles grilles, réseaux de neurones graphiques (GNN), complexes abstraits — trouvent des débouchés dans des domaines aussi variés que la prédiction climatique, la génération 3D, la vision par ordinateur respectueuse de la vie privée, ou encore les hypergraphes pour modéliser des interactions complexes. Le chercheur a ainsi longuement étudié les problèmes de GNN, jusqu’à présenter l’an passé le potentiel de ces méthodes pour la modélisation météorologique au cours d’un webinar pour l’IEEE Signal Processing Society.
Jhony Giraldo explore donc les conditions d’une IA véritablement adaptative, capable d’intégrer des connaissances externes, de naviguer entre différents contextes, et de coopérer avec les scientifiques. « Le GDL est le fil rouge de mes travaux. Même s’il y a énormément d’applications, je tenais particulièrement à parler de la biodiversité, parce que c’est un sujet important et qui me tient à cœur. On parle trop peu encore de l’utilisation de l’intelligence artificielle au service de la nature », conclut-il.