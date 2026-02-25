Vagues, subjectives, difficilement réfutables… Les informations floues biaisent le débat public et laissent prospérer fake news et manipulations. Le projet de recherche TrustedNews développe des outils numériques pour aider journalistes et experts à identifier et analyser ces contenus.

« Des chiffres inquiétants » ; « la situation est explosive » ; « on vous cache tout »… Comme avant chaque élection, ce type de déclarations envahit le Web à l’approche des municipales. Ni franchement vraies, ni clairement fausses, ni totalement inventées, ni précisément démontrables, elles s’appuient sur un lexique vague et subjectif. Et orientent la perception du public avant même qu’il dispose d’éléments factuels. On peut souligner l’absence de source précise, le manque de contexte ou de recul sur les faits évoqués. Mais ces approches peinent à saisir ce qui se joue dans cette zone grise, où la véracité des énoncés compte finalement moins que la manière dont ils sont cadrés et hiérarchisés.

Pas un « ministère de la Vérité »

« C’est précisément dans cet entre-deux, entre information et interprétation, que se situent les travaux de TrustedNews », souligne Paul Égré , coordinateur de ce projet de recherche et spécialiste de philosophie du langage. Depuis 2019, ces travaux explorent différentes méthodes pour caractériser les zones de flou informationnel et leur influence dans les débats publics.

« L’idée n’est pas de créer un “ministère de la Vérité” », tient à préciser Guillaume Gravier , partenaire du projet et chercheur en traitement automatique du langage. Il n’y a pas d’un côté une bonne information, vraie et officielle, et de l’autre des contrevérités, qui auraient pour seul tort de ne pas reprendre les mêmes éléments de langage…« Les contenus les plus problématiques ne sont ni totalement vrais ni complètement faux, ajoute Paul Égré. Souvent ils reposent même sur des éléments factuels. »

Fausse information et « mésinformation »

Imaginons que l’information suivante soit vraie : « Jeudi 12 septembre, à la suite d’un accident exceptionnellement grave en gare de Bordeaux, 8 TGV ont eu 15 à 30 minutes de retard ». Une reprise vague et subjective de cet énoncé pourrait être : « Les trains sont tout le temps en retard ! Hier encore à Bordeaux… ».

Ces travaux partent de grandes questions théoriques sur les liens entre le langage, la rhétorique et la réalité « La qualification de fausse information pour ces raccourcis de discours n’est pas suffisamment adéquate », résument les chercheurs, qui préfèrent parler ici de « mésinformation ». En revanche, ces différentes façons de présenter un événement n’ont pas le même degré de précision, de factualité ou encore de neutralité. L’ambition de TrustedNews est d’objectiver et d’automatiser ce genre d’observations.

Mais comment mesurer le flou informationnel ? « Il faut d’abord comprendre que le vague et la subjectivité ne sont pas des anomalies ou des perversions du langage, contextualise Paul Égré. Ce sont des usages ordinaires, auxquels tout le monde recourt au quotidien. » Dire qu’un produit n’est « pas cher » ou qu’une décision concerne « beaucoup de monde », par exemple, ne relève pas d’un mensonge ou d’une approximation fautive : « C’est une forme de souplesse indispensable à la communication ordinaire, là où une précision excessive serait parfois inutile, voire source d’erreur ».

Les contenus les plus problématiques ne sont ni totalement vrais ni complètement faux C’est ce qui nous permet de réfléchir et de parler d’un sujet même quand on ne sait pas tout, d’ajuster son propos à un contexte ou encore à des interlocuteurs. En outre, le vague peut recouvrir différentes formes.

Certains termes quantitatifs (« grand », « riche », « beaucoup »…) n’ont pas de frontières nettes et ouvrent la voie à des interprétations variables – ce que les chercheurs appellent le « vague lexical » ou « sémantique ». À cela s’ajoute une dimension plus pragmatiqueFermerPragmatique : branche de la linguistique qui étudie le langage en fonction de son environnement (locuteurs, contexte…)., soit le fait de donner une information partielle, d’occulter des détails importants ou encore de tomber rapidement dans les généralités. C’est ce qui se passe dans l’exemple des trains cité plus haut : on ne parle pas de l’accident, on ne souligne pas le caractère limité des retards, on en tire une conclusion plus large sur l’évolution des services ferroviaires et du pays, etc.

Un mot ne suffit pas

Pour passer de ces constats intuitifs à une analyse formelle et systématique, TrustedNews développe notamment un outil appelé Vago. Conçu par Paul Égré et Benjamin Icard à partir de 2020, il permet d’identifier des marqueurs linguistiques de flou et de subjectivité.

Vago repose, d’une part, sur un vaste lexique constitué manuellement. Des milliers de termes ont été recensés. Certains relèvent de l’approximation (« environ », « presque ») ou de la généralité (« plusieurs », « certains »), ou encore du degré ou de l’évaluation (« important », « très inquiétant »). D’autre part, des marqueurs explicites de subjectivité ont aussi été pris en compte, comme les jugements de valeur (« c’est scandaleux », « admirable ») ou des formulations très expressives (« évidemment », « il est clair que… »). « Pris isolément, nuance Guillaume Gravier, aucun de ces mots n’est révélateur d’un biais. En revanche, leur accumulation, leur récurrence ou l’absence de contrepoids factuel dans une intervention médiatique devient rapidement significative. »

B. Icard, V. Claveau, G. Atemezing, P. Egré - Un traitement hybride du vague textuel : du système expert VAGO à son clone neuronal (2023)

D’autres termes ont une signification péjorative ou laudative, comme les insultes, et peuvent être immédiatement révélateurs. Dans tous les cas, l’outil Vago ne se contente pas de repérer ces champs lexicaux. Il met les termes en relation, évalue leur importance dans un discours, pondère son calcul en fonction des éléments factuels (dates, chiffres, lieux, noms propres…).

C’est cette quantification progressive, phrase par phrase, puis texte par texte, qui rend possible une analyse à grande échelle des discours médiatiques. « L’enjeu est de produire des mesures graduées », précisent les deux chercheurs. Les outils développés par TrustedNews reposent sur des scores, des probabilités et des seuils ajustables.

Une méthode hybride

« À l’origine, explique Paul Égré, ces travaux partent de grandes questions théoriques sur les liens entre le langage, la rhétorique et la réalité. » Dans les années 2010 notamment, il propose une analyse du flou lexical et de la subjectivité dans les discours d’influence. Publié avec Benjamin Icard dans un ouvrage collectif sur le mensonge, The Oxford Handbook of Lying , le chapitre intitulé « Vagueness and Lying », montre que ces registres constituent une ressource efficace pour distordre la réalité tout en évitant de mentir frontalement. En restant dans le vague, ils permettent aussi d’agréger des publics aux convictions très différentes, voire opposées.

Le vague et la subjectivité ne sont pas des anomalies ou des perversions du langage Ces réflexions trouvent un premier prolongement opérationnel dans le projet DIEKB. « L’idée était de rassembler des méthodes de sémantique formelle, de logique et de traitement automatique du langage au sein d’une même plateforme. » Concrètement, cela revient à combiner des analyses humaines et des outils informatiques plus ou moins automatisés.

En 2022, le projet Hybrinfox consacre cette ambition en appliquant des méthodes hybrides à l’analyse de corpus médiatiques : des articles de presse traditionnelle, mais aussi des supports de propagande. « On a rapidement pu confirmer une forte corrélation statistique entre le caractère vague et subjectif d’un texte et une tendance à la mésinformation », souligne Paul Égré.

« L’originalité de TrustedNews est aussi de concilier une intelligence artificielle lexicale et symbolique d’un côté, avec, de l’autre, des modèles neuronaux d’apprentissage profond », ajoutent les deux chercheurs.

La conception manuelle d’un lexique, annoté et qualifié par des humains, constitue l'un des briques du projet. Une autre repose sur l’entraînement de systèmes d’IA sur d’immenses corpus de textes (articles de presse, forums, réseaux sociaux ou supports de propagande) afin d’y repérer des régularités statistiques, des effets de cadrage ou des traits linguistiques fins, difficilement formalisables par des règles explicites.

La première brique présente l’avantage d’être contrôlable et interprétable : les chercheurs peuvent à tout moment comprendre pourquoi un énoncé est considéré comme vague par l’algorithme. Mais la construction manuelle de ces ressources en limite nécessairement l’extension.

À l’inverse, les modèles neuronaux peuvent s’entraîner sur des bases de données comptant des millions de textes, détecter des régularités qui échappent à l’analyse humaine, et s’appuyer sur des bases de connaissances formalisées. « L’ennui, rappelle Guillaume Gravier, c’est que ces modèles neuronaux constituent en même temps ce que l’on appelle une “boîte noire” en IA » : il devient difficile de comprendre précisément comment ces systèmes produisent leurs résultats. De plus, ces bases de données n’étant pas annotées, les analyses qu’en font réseaux de neurones sont parfois plus fragiles.

Subjectivité sans intention de tromper

Outre l’information et le débat public, TrustedNews s’inscrit aussi dans des usages institutionnels et stratégiques sensibles. Le projet est notamment pensé pour répondre à des besoins de surveillance de sources d’influence, en particulier dans des contextes de guerre informationnelle ou de propagande étrangère. Il s’appuie pour cela sur des partenariats industriels et institutionnels, associant laboratoires de recherche (IRL Crossing, Institut de recherche en informatique et systèmes aléatoires , LIP6 ), acteurs de la presse (Ouest-France) et entreprises du secteur de la défense (Airbus).

L’enjeu n’est pas de déléguer intégralement l’évaluation de l’information en ligne à des algorithmes Aussi fine soit-elle, l’analyse automatique du flou informationnel se heurte toutefois à des limites structurelles. La première tient au contexte d’énonciation. « Une phrase ironique, humoristique ou satirique peut cumuler des marqueurs de subjectivité sans chercher à tromper qui que ce soit », illustre Guillaume Gravier.

Faute d’accès à l’intention des auteurs ou au cadre de réception, les outils mobilisés peinent à distinguer ces usages de véritables stratégies d’influence. De même, certains formats médiatiques (tribunes, éditoriaux, chroniques) assument une part de subjectivité. L’enjeu n’est pas de reléguer toute forme de parti pris, mais de la replacer dans son registre propre, ce que l’analyse automatique ne fait encore qu’imparfaitement.

Enfin, ces outils n’ont pas vocation à fonctionner de manière autonome. Les équipes de TrustedNews – travaillant notamment avec des journalistes de Ouest-France, en lien avec le laboratoire commun Synapses – tiennent à maintenir une interprétation humaine dans la boucle. Les indicateurs fournis peuvent signaler des tendances, des évolutions dans les stratégies d’influence en ligne ou des éléments de langage récurrents, mais ils ne produisent ni diagnostic définitif ni jugement normatif. « L’enjeu n’est pas de déléguer intégralement l’évaluation de l’information en ligne à des algorithmes, précise Paul Égré, mais d’attirer l’attention sur des mécanismes discursifs susceptibles d’échapper à une lecture rapide. »

Une écologie du débat

En documentant l’état linguistique des interventions et débats médiatiques, TrustedNews rappelle que le problème posé par la mésinformation ne tient pas seulement à la circulation de fake news. Lorsque les discussions s’appuient de manière répétée sur des formulations vagues, des généralisations suggestives ou encore des cadrages anxiogènes, la vérité des faits n’est pas la seule chose difficile à établir. La possibilité même de la discussion argumentée s’en trouve fragilisée : faute d’énoncés précis, il n’y a plus de points sur lesquels être d’accord ou en désaccord, seulement des ressentis qui s’affrontent.

À terme, le projet vise également un raccordement progressif à des bases de connaissances, afin de confronter certains énoncés à des informations établies, corroborées ou à vérifier. Cette articulation entre analyse linguistique et ressources factuelles doit permettre de mieux situer les contenus sur un continuum allant du factuel au spéculatif.

Le but n’est ni de rêver une information parfaitement neutre ni d’éliminer toute subjectivité dans les débats. Il s’agit de comprendre comment certains usages favorisent la délibération quand d’autres tendent à les court-circuiter – autrement dit, de penser une écologie du débat public, attentive aux formes autant qu’aux contenus.

Ces outils s’inscrivent aussi dans la sphère plus large de l’éducation aux médias et à l’information. L’analyse automatique n’a de valeur que si nous cultivons notre capacité à interpréter, discuter et débattre de ces signaux.

