Mieux traquer la cyberhaine : l’IA à la rescousse

L’usage massif des réseaux sociaux, parfois sous couvert d’anonymat, a permis la libération de la parole et le foisonnement d’idées, d’échanges et d’opinions sur internet. Il a aussi entraîné un flot de discours haineux, sexistes, racistes ou injurieux. Face à ce phénomène, de plus en plus de plateformes ont aujourd’hui recours à des solutions automatisées pour lutter contre la cyberhaine. Ces solutions reposent cependant sur des algorithmes susceptibles d’introduire des biais, parfois discriminants à l’égard de certaines communautés, et restent encore largement perfectibles. Dans ce contexte, des chercheurs français développent de nouveaux modèles, toujours plus efficaces tant pour la détection des contenus haineux que dans la réduction de leurs biais.

Le 16 septembre dernier, des internautes ont lancé un mouvement appelant à boycotter Instagram le temps d’une journée. Suivie par de nombreuses célébrités américaines, la journée « Stop Hate For Profit » (Non à la haine au service du profit) visait à interpeller Facebook, la maison-mère de l’application de partage de photos et de vidéos, sur la prolifération de contenus incitant à la haine, de propagande ou encore de désinformation sur ses plateformes. Déjà, en mai 2019, dans son rapport semestriel sur l’état de la modération sur son réseau, Facebook annonçait d’importants progrès sur la détection automatisée des contenus haineux. Selon l’entreprise, entre janvier et avril 2019, plus de 65% de ces messages avaient pu être détectés et modérés avant même qu’un internaute ne les signale, contre près de 38% à la même période en 2018.

Fortement poussées à lutter contre les contenus haineux en ligne, notamment par la loi dite « loi Avia » (du nom de la députée de Paris, Lætitia Avia), les plateformes font appel à différentes techniques : la détection par mots-clés, le signalement des utilisateurs, ou encore des solutions à base d’intelligence artificielle (IA). L’apprentissage automatique permet en effet l’obtention de modèles prédictifs à partir de corpus de données. Et c’est justement ici que le biais blesse. « Nous nous sommes aperçus que les outils automatiques comportaient eux-mêmes des biais discriminants à l’égard du genre, de l’identité de l’utilisateur et surtout, avaient un impact négatif disproportionné sur certains groupes minoritaires tels les afro-américains », explique Marzieh Mozafari, doctorante à Télécom SudParis. Sur Twitter, par exemple, difficile pour des programmes à base d’IA de prendre en compte tout à la fois le contexte social des tweets, l’identité et le dialecte du locuteur ou encore le contexte environnant du tweet. Certains contenus sont ainsi parfois supprimés sans être pour autant ni haineux ni offensants.

Alors, comment minimiser ces biais et les détections abusives, susceptibles d’amener une forme de censure ? Les chercheurs de Télécom SudParis ont exploité un ensemble de données publiques collectées sur Twitter, distinguant d’une part les tweets rédigés en anglais afro-américain (AAE), et d’autre part ceux en anglais-américain standard (SAE), ainsi que deux bases de données de référence, annotées (sexiste, raciste, haineux et offensant) par des experts et grâce au crowdsourcing. « Dans cette étude, et en raison du manque de données, nous nous sommes principalement appuyés sur des techniques de pointe en traitement du langage naturel tels que l’apprentissage par transfert, et le modèle de langage BERT, un modèle pré-entraîné et non supervisé », expliquent les chercheurs.

Développé par Google, le modèle BERT (Bidirectional Encoder Representations from Transformers) utilise un énorme corpus de contenus textuels – il contient, entre autres, tout le corpus anglophone de Wikipédia. « Nous avons donc pu ‘customiser’ BERT [1] pour lui faire effectuer une tâche particulière : l’ajuster sur notre corpus haineux et offensant », précise Reza Farahbakhsh, chercheur en sciences de la donnée à Télécom SudParis. Dans un premier temps, ils ont tenté d’identifier dans leurs ensembles de données des séquences de mots fortement corrélées à une classe haineuse ou offensante. Leurs résultats montrent que les tweets rédigés en AAE sont presque 10 fois plus susceptibles d’être catégorisés racistes, sexistes, haineux ou offensants par rapport aux tweets écrits en SAE. « Nous avons donc utilisé un mécanisme de repondération pour atténuer les biais basés sur les données et les algorithmes », poursuit Marzieh Mozafari. Par exemple, si le nombre de tweets contenant « n*gga » et « b*tch » est 35 fois plus élevé chez les tweeters en AAE que du côté SAE, ces tweets vont souvent être identifiés à tort à des contenus racistes ou sexistes. Or, ce type de mots est courant dans les dialectes de l’AAE et utilisé dans des conversations quotidiennes. Par conséquent, il est plus probable qu’ils soient considérés comme haineux ou offensants lorsqu’ils sont écrits en SAE par un groupe associé.

« En fait, ces biais sont aussi culturels : certaines expressions que l’on va considérer comme haineuses ou injurieuses ne le sont pas pour une certaine communauté ou dans un certain contexte. En français, nous utilisons parfois nous aussi certains noms d’oiseaux pour nous adresser à nos proches ! Pour les plateformes il y a une sorte de dilemme : si l’objectif est de parvenir à identifier parfaitement tous les contenus haineux, un trop grand nombre de fausses détections pourrait affecter la manière ‘naturelle’ de s’exprimer des utilisateurs », souligne Noël Crespi, chercheur à Télécom SudParis. Après avoir réduit l’effet des mots les plus fréquemment utilisés dans les données d’entraînement avec l’application du mécanisme de repondération, cette probabilité de faux-positifs est largement réduite. « Enfin, nous avons transmis ces résultats au modèle pré-entraîné BERT pour l’affiner encore davantage sur de nouveaux ensembles de données », poursuit le chercheur.

La détection automatique peut-elle monter en échelle ?

En dépit de ces résultats prometteurs, de nombreux verrous restent à lever pour encore mieux détecter les contenus haineux. Parmi eux, la possibilité de déployer ces outils automatisés pour l’ensemble des langues parlées sur les réseaux sociaux. Ce défi fait l’objet d’un challenge en sciences de la donnée, lancé pour la seconde année consécutive : le HASOC (Hate Speech and Offensive Content Identification in Indo-European Languages), auquel a participé une équipe d’IMT Mines d’Alès. « Ce challenge vise à répondre à trois tâches : déterminer si un contenu est haineux/offensant ou non ; classifier ce contenu parmi trois catégories : haineux, offensant ou profane ; identifier si l’insulte est orientée vers un individu ou un groupe défini », détaille Sébastien Harispe, chercheur à IMT Mines Alès.

« Nous nous sommes essentiellement focalisés sur les deux premières tâches. En nous appuyant sur notre expertise en traitement du langage naturel, nous avons proposé une méthode d’analyse de textes basée sur des techniques d’apprentissage automatique supervisé qui tirent parti d’exemples et de contre-exemples des classes à distinguer ». Dans ce cadre, le travail des chercheurs s’est porté sur des jeux de données en anglais, allemand et hindi, de petites tailles. L’équipe s’est notamment intéressée à l’étude du rôle joué par les émojis dont certains sont parfois directement connotés à des expressions de haine. Les chercheurs ont alors étudié l’adaptation de différentes approches standard en traitement automatique des langues afin d’obtenir des classificateurs capables d’exploiter de manière efficiente de tels marqueurs.

Ils ont également mesuré la capacité de leurs classificateurs à capturer ces marqueurs, notamment au travers de leur performance. « Pour l’anglais, par exemple, dans 78% des cas notre modèle parvenait à classifier correctement les contenus, bien que seulement 77% des annotateurs humains se soient accordés initialement sur l’annotation à donner aux contenus du jeu de données utilisé », explique Sébastien Harispe. En effet, dans 23% des cas, les annotateurs exprimaient des avis divergents face à des contenus douteux qui auraient très probablement mérité d’être étudiés en tenant compte d’éléments contextuels.

Qu’attendre alors de l’IA ? Pour le chercheur, nous faisons ici face à une question complexe : que sommes-nous prêts à accepter dans l’usage de ce type de technologies ? « Bien que des progrès remarquables aient été effectués en près d’une décennie en science de la donnée, nous devons admettre que nous sommes face à une discipline jeune à laquelle nous devons encore apporter beaucoup d’un point de vue théorique, et surtout pour laquelle nous devons accompagner les applications de manière à permettre des usages éthiques et éclairés. Néanmoins, à mon sens, en matière de détection de contenus haineux, il y a une sorte de plafond de verre induit par la difficulté de la tâche telle que traduite dans nos jeux de données actuels. Sur ce sujet précis, il ne peut pas y avoir de système parfait ou irréprochable là où nous ne pouvons pas nous-mêmes l’être ».

Au-delà du défi multilingue, les chercheurs font face à d’autres verrous : la disponibilité des données pour l’entraînement des modèles et l’évaluation des résultats, ou encore la difficulté à juger de l’ambiguïté de certains contenus, du fait par exemple de la variation du style d’écriture. Enfin, la caractérisation même d’un contenu haineux, aussi subjective soit-elle. « Nos travaux peuvent servir de matériau aux sciences humaines qui commencent à se saisir de ces questions : pourquoi, quand, qui, quel contenu ? Quelle est la part culturelle de ce phénomène ? Car le phénomène de la cyberhaine est, finalement, un problème moins technologique que sociétal » conclut Reza Farahbakhsh.

[1] M. Mozafari, R. Farahbakhsh, N. Crespi, “Hate Speech Detection and Racial Bias Mitigation in Social Media based on BERT model”, PLoS ONE 15(8): e0237861. https://doi.org/10.1371/journal.pone.0237861

Anne-Sophie Boutaud