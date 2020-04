L’Institut des systèmes complexes de Paris Île-de-France a publié plusieurs cartes construites à partir de l’analyse automatisée de toutes les publications scientifiques consacrées au Covid-19. Son directeur David Chavalarias nous explique l'intérêt de ces visualisations pour la recherche, et pour le public.

Votre laboratoire étudie les systèmes constitués d’une foule d’agents (réseaux sociaux, colonies d'insectes, réseaux de neurones, embouteillages...) dont les interactions produisent un comportement global bien organisé. Parmi ces systèmes, vous vous êtes intéressé aux chercheurs et à leur production scientifique. Vous avez notamment mis à la disposition du public des cartographies interactives de la recherche sur le coronavirus. De quoi s'agit-il ?

David Chavalarias : Face à l'épidémie de Covid-19, nous souhaitions mettre notre expertise en science des données au service des chercheurs qui travaillent sur le virus. Ces derniers – comme dans toute discipline – ont accès à une très grande masse d'informations disponible dans les articles scientifiques mais où il est souvent difficile de s'y retrouver. C'est là qu'interviennent nos cartographies : par l'analyse de plusieurs milliers d'articles, elles permettent de faire ressortir les principales thématiques abordées sur le virus et la façon dont elles s'organisent. D'un seul coup d’œil, on peut ainsi visualiser l'état de l'art de la recherche sur le sujet. Et en naviguant dans ces cartographies, on peut accéder directement aux articles pertinents sur une question précise et être sûr de ne pas passer à côté d'un thème incontournable sur une problématique donnée. De quoi faciliter le travail des chercheurs et faire ainsi progresser la recherche sur le virus.



Comment sont construites ces cartographies ?

D. C. : Ces cartes ont été créées avec le logiciel Gargantext, sur lequel je travaille depuis 2013 avec Alexandre Delanoë. Pour la première carte réalisée dès le début de l'épidémie, en février dernier, le logiciel a analysé le contenu de plus de 6 500 articles de la littérature biomédicale sur le coronavirus, publiés entre 2000 et 2020. Dans un premier temps, l'outil effectue ce qu'on appelle une « fouille de données textuelles » sur toutes ces publications : grâce à des techniques de traitement automatique du langage, on extrait les termes les plus représentatifs de ce corpus – 2 000 expressions dans ce cas –, par exemple « vaccins efficaces » ou encore « SRAS » (syndrome respiratoire aigu sévère).



David Chavalarias; Logiciels de text-mining et visualisation utilisés : http://gargantext.org et http://gephi.org Partager Partager

Une fois ces mots-clés identifiés, on cherche à savoir à quel point ils sont liés : par exemple, quelle est la probabilité que l'un de ces termes soit associé à un autre par un chercheur dans un article – dans un autre domaine, « cancer » à une forte chance d'être associé à « tabac » par exemple. En mesurant cette probabilité pour chacun des termes deux à deux, et cela sur l'ensemble des articles, on met alors en évidence des groupes de termes qui interagissent plus fortement entre eux qu’avec le reste des termes étudiés. Ces groupes ne définissent rien de moins que les grandes thématiques de recherche souvent portées par des communautés particulières (le coronavirus chez l'homme, les symptômes de la maladie, le coronavirus chez le porc, etc.). Sur la carte, où chaque point représente un terme – plus le point est gros, plus il est central dans le réseau des relations entre termes – et où les termes associés sont reliés entre eux par des lignes, on voit alors clairement apparaître ces communautés sous la forme d'amas de différentes couleurs.



Concrètement, quelles informations peut-on en tirer ?

D. C. : Ces cartes ont d'abord une vertu bibliographique : elles permettent aux chercheurs de trouver rapidement les thèmes importants et les articles associés à consulter. Par exemple, si un biologiste s'intéresse à l'activité antivirale de certaines substances contre le coronavirus, il n'a qu'à taper le terme « antiviral » dans la barre de recherche et la carte lui donne les termes les plus associés (chloroquine, CH25H...) avec les articles correspondants. De cette manière, le chercheur peut se faire une idée précise des recherches en cours les plus abouties sur un sujet, mais aussi dans certains cas pointer du doigt des pistes étudiées par le passé et qui mériteraient que l'on y revienne.



L'autre vertu de ces cartes est d'inciter les chercheurs à collaborer. En effet, en montrant explicitement les liens qui existent entre des termes utilisés par des communautés différentes, ces visualisations peuvent pousser les scientifiques à échanger leurs idées pour avancer. C'est d'ailleurs souvent à l'intersection entre les spécialités que se font les découvertes importantes. Dans ce sens, j'ai réalisé le 5 avril, à partir de près de 17 000 articles publiés là aussi sur les vingt dernières années, une autre carte qui synthétise la recherche sur les antiviraux de manière large. Sur cette carte, le coronavirus est un domaine parmi d'autres et l'idée est de visualiser les recherches qui se font ailleurs (herpès, cancer...) pour éventuellement trouver des réponses propres au Covid-19.



Ces cartes ont-elles déjà conduit à une application importante face à la crise du Covid-19 ?

D. C. : Oui. Le 11 avril, j'ai réalisé une carte de l'ensemble des essais cliniques de traitements contre le Covid-19 recensés par l'Organisation mondiale de la santé. Cette carte, qui intéresse de près les chercheurs du Centre de recherche épidémiologie et statistique Sorbonne Paris Cité, devrait se révéler cruciale pour coordonner les recherches en offrant une vision synthétique des pistes explorées par les essais cliniques en cours et passés, les combinaisons de traitements et les résultats attendus ou observés. On pourra ainsi explorer de nouvelles pistes, en évitant de répéter des études similaires.



Le grand public peut-il aussi tirer parti de telles visualisations ?

D. C. : Bien sûr. C'est ce que j'ai essayé de montrer avec une quatrième carte sur les recherches autour de la chloroquine, une molécule utilisée depuis longtemps pour le traitement du paludisme notamment et qui pourrait aussi se révéler bénéfique contre le Covid-19. J'ai fait cette carte en mars, au moment où une polémique montait contre ce médicament que certains accusent d'être dangereux.

Avec cette carte, il est possible, même pour un non-expert comme moi, de se faire une idée des enjeux sur l’utilisation de cette molécule, à la lumière des études scientifiques. Quand on cherche le terme « toxicité » dans cette carte, les recherches qui s'y rapportent sont liées à des troubles cardiovasculaires et à des atteintes aux yeux (rétinopathies). Et lorsqu'on lit les articles dans le détail, ces effets néfastes semblent être observés principalement après une longue période d'utilisation du médicament. Cela ne veut évidemment pas dire qu'on peut se passer des avis médicaux sur la dangerosité de son utilisation, mais cela permet de mieux appréhender où se situe le débat scientifique.



Peut-on imaginer d'autres utilisations de vos cartographies ?

D. C. : Oui, et notre objectif est que ce genre de visualisation, qui n'est pas encore assez répandue en science, devienne un standard pour éclairer les chercheurs sur les grands enjeux de leur recherche. C'est pour cette raison que le logiciel Gargantext est libre : tout un chacun peut l'utiliser pour créer sa propre carte . Pas seulement en science d'ailleurs. On peut imaginer de nombreuses autres utilisations : cartographie des programmes politiques des candidats à une élection, des brevets ou des pages web d’entreprises dans le cadre d’une veille technologique...

Qui plus est, nous travaillons actuellement pour faire de ce logiciel un outil collaboratif : très bientôt, les cartes pourront être construites à plusieurs et chacun apportera son expertise en ajoutant des expressions et des documents plus pertinents ou au contraire, en en retirant d'autres. L'idée est vraiment de produire des cartes de manière cumulative, qui ne soient pas figées mais qui puissent évoluer et s'améliorer en fonction du contexte et de la production scientifique. ♦