À l’aide d’outils de traitement automatique des langues, le projet GenderedNews permet de mesurer et d’analyser en temps réel les disparités genrées de représentation dans les médias. Ange Richard, qui porte ce projet avec Gilles Bastin et François Portet, nous en livre les principales conclusions.

Une fois par mois, retrouvez sur notre site les Inédits du CNRS, des analyses scientifiques originales publiées en partenariat avec Libération.

Les hommes sont en moyenne trois fois plus mentionnés ou cités que les femmes dans les médias, et ce chiffre ne faiblit pas sensiblement depuis des décennies. C’est ce que de nombreuses études fondées sur l’analyse de contenu et le codage manuel de corpus de presse démontrent régulièrement. Le dernier rapport du Global Media Monitoring Project, la plus vaste de ces études qui, tous les cinq ans depuis 1995, procède à une recension internationale de la place des femmes dans les médias de plus de 100 pays sur la même journée, chiffre la part des femmes entre 23 et 26 % selon les médias dans le monde . De telles études sont coûteuses en données et en main d’œuvre. Elles ne permettent de faire des constats que sur des périodes limitées, même si leurs résultats laissent déjà deviner une certaine régularité.



C’est de la volonté de porter ce constat à une plus grande échelle que le projet GenderedNews est né. Le site monitore en temps réel les inégalités genrées de mention et de citation dans la presse quotidienne française. Ce tableau de bord est la partie publique et visible d’un projet de recherche plus large dans lequel nous cherchons à développer des outils issus de méthodes computationnelles permettant de mesurer les déséquilibres genrés de représentation dans les médias français.



La régularité des inégalités de représentation



Chaque jour et ce depuis plus d’un an, les algorithmes de GenderedNews parcourent les liens des articles publiés sur les fils Twitter de sept journaux de la presse quotidienne nationale puis calculent la présence des hommes dans les personnes mentionnées et citées.

Le propre de l’actualité, c’est de changer constamment. Pourtant, jour après jour, les chiffres fournis par le tableau de bord font preuve d’une régularité surprenante. Quel que soit le média, quel que soit le jour, les hommes constituent environ 75 % des personnes citées et mentionnées dans les articles. C’est le premier constat que nous avons fait : le phénomène d’inégalités genrées dans la représentation médiatique est un problème structurel.



Le tableau de bord permet d’explorer ces observations avec différentes visualisations, grâce à des graphiques par semaine, par catégorie, par source. L’algorithme de GenderedNews agrège les rubriques des différents médias et permet des comparaisons par catégories. On retrouve des distinctions genrées parlantes : les catégories « People », « Société » et « Culture » sont les seules qui atteignent parfois (mais toujours difficilement) la parité. Les rubriques « Religion », « International », « Sport » et « Politique » sont quant à elles toujours en majorité dominées par des hommes, avec un taux avoisinant les 80 % d’une semaine à l’autre.



Quelques « anomalies » visibles



Un calcul sur la longue durée permet de souligner les constances, mais aussi quelques ruptures. Un moment en particulier a attiré notre attention, un fossé inattendu sur une courbe quasi plate : au moment de l’été 2021, on observe une baisse nette du taux de masculinité des mentions, notamment pour le journal sportif L’Équipe qui, d’une moyenne de 90 % d’hommes, baisse à 73 %.

Ce qui semble expliquer cette anomalie, c’est qu’elle correspond à la période des Jeux olympiques (JO) : à ce moment-là dans la presse, on parle davantage de sports mixtes ou féminins, et plus de sportives tout court, ce qui fait baisser la présence des hommes dans les catégories « Sport ». Cependant dès les JO terminés, la catégorie en question retrouve son niveau antérieur et immédiatement, on y mentionne à nouveau 90 % d’hommes.



Certains mouvements de catégories sont intéressants à observer en détail : la catégorie « Éducation », par exemple, est une des catégories les plus fluctuantes, tantôt à 40 % d’hommes mentionnés ou cités, tantôt à 80 %. Une analyse plus fine permet de constater que lorsque les sujets de cette rubrique portent sur les réformes ou la politique en termes d’éducation, les articles mentionnent et citent plus d’hommes (qui se trouvent en majorité au gouvernement), tandis que lorsque les articles traitent des enseignants et enseignantes, des personnels et publics fréquentant les établissements scolaires, la part des hommes chute drastiquement. Au-delà des déséquilibres de représentation, il y a donc aussi des enjeux liés aux stéréotypes de genre qui entrent en ligne de compte.



Algorithmes et sociologie



Ces analyses à grande échelle sont faites grâce aux méthodes computationnelles de GenderedNews, qui s’appuie sur des technologies informatiques du traitement automatique des langues. Ces méthodes permettent notamment de faire la distinction entre les mentions (les personnes dont le nom est mentionné dans les articles, les personnes « sujets » des articles) et les citations (les personnes dont les propos sont rapportés dans les articles, qui ont été interrogées et dont la parole est reléguée). Cela permet d’observer que les citations sont quasi systématiquement plus masculines que les mentions : s’il est déjà rare pour les femmes d’être mentionnées dans les nouvelles, il leur est encore plus difficile d’y avoir une voix.

Le taux de masculinité des mentions est calculé à partir des prénoms repérés automatiquement dans les articles. L’algorithme s’appuie pour cela sur une base de données de prénoms tirée du recensement de l’Insee, à partir de laquelle un « score de masculinité » est attribué à chaque prénom non ambigu (ne pouvant désigner autre chose qu’une personne). Une moyenne de ce taux est ensuite calculée pour chaque article puis pour chaque source.



La distribution des citations, elle, est calculée à partir d’un système à base de règles qui extrait les citations (entre guillemets ou paraphrasées) des textes ainsi que leur auteur ou autrice. Le genre de la personne citée est ensuite assigné à partir d’un faisceau d’indices que l’on peut trouver dans le texte : un pronom, un prénom genré, un nom de métier genré ou encore un titre.



Ce site web a pour fonction d’objectiver quotidiennement les inégalités de représentation dans les principaux journaux quotidiens et de rendre cette mesure publique (un bot Twitter, @genderednews, publie tous les lundis les chiffres de la semaine passée).



Au-delà de cette plateforme de monitorage, nous travaillons aujourd’hui dans deux directions : un partenariat plus poussé avec des rédactions comme l’AFP et Mediapart qui nous permet d’analyser plus finement les stéréotypes genrés se nichant dans les habitudes d’écriture des journalistes (par exemple, l’usage différencié des verbes qui introduisent les propos des femmes et des hommes). Ce partenariat a d’ailleurs donné naissance dans le cas de Mediapart à l’élaboration d’outils internes de monitorage à partir de notre travail. La seconde direction dans laquelle nous avançons est l’amélioration de nos outils de détection à partir de systèmes basés sur de l’apprentissage automatique, plus performants que ceux à base de règles. ♦

