Vous êtes ici
Crowdsourcing : tous chercheurs !
Vous avez une connexion Internet, un peu de temps devant vous et l’envie de vous investir dans un projet de nature scientifique ? Alors le crowdsourcing est fait pour vous. De fait, lorsqu’il s’agit d’interpréter les millions d’images produites par nos télescopes, de suivre l’évolution des populations d’oiseaux à l’échelle d’un pays ou de déchiffrer les milliers de morceaux d’un papyrus en grec ancien à moitié effacé, toutes les bonnes volontés sont les bienvenues.
« Grâce au Web et à l’existence de bases de données toujours plus performantes, les chercheurs ont la possibilité de mobiliser des milliers de personnes pour collecter de l’information dans le cadre de leurs travaux, explique Mokrane Bouzeghoub, directeur adjoint scientifique à l’Institut des sciences de l’information et de leurs interactions et coordinateur du Défi Mastodons, un programme de recherche sur les masses de données. Ce qui pouvait parfois représenter le travail d’une vie s’en trouve considérablement accéléré. »
De la collecte d’information à la réalisation de tâches
Depuis la fin 2012, le Muséum national d’histoire naturelle (MNHN) fait ainsi appel au grand public pour décrypter les annotations manuscrites portées sur les 6 millions de planches fraîchement numérisées de son herbier historique (date et lieu de collecte, nom du botaniste…). « Avec les seuls moyens du Muséum, nous avons calculé qu’il faudrait employer une personne pendant 500 ans pour mener à bien cette tâche, indique Romain Julliard, spécialiste du crowdsourcing au MNHN. Grâce à la participation des internautes, 100 000 planches ont déjà été indexées dans le cadre du projet Herbonautes. » En 2007, le projet Galaxy Zoo, lancé par une équipe d’astronomes de l’université d’Oxford, a permis de répertorier par forme (ronde, spiralée, allongée) la bagatelle d’un million de galaxies en seulement… deux jours ! Une tâche que ces chercheurs auraient mis des années à accomplir.
Le crowdsourcing, que d’aucuns appellent aussi « science participative », couvre en réalité deux grands champs d’activité. La collecte pure d’information, qui va de l’observation du terrain (comptage de la faune, de la flore…) à la récupération de données concernant l’individu lui-même, comme des données liées à la santé. Et la réalisation de tâches dites de calcul qu’un ordinateur ne saura pas accomplir ou mettra des années à exécuter, autrement dit, des tâches qu’un humain réussira mieux et plus vite qu’une série d’algorithmes ! « Il s’agit généralement de problèmes de combinatoire mettant en jeu de multiples paramètres », précise Mokrane Bouzeghoub.
Ainsi, contrairement aux processeurs, l’homme excelle dans la reconnaissance des formes (caractères, formes géométriques mal définies…) et saura extraire en un clin d’œil d’une photo le slogan tracé sur le mur d’une maison ; il sait également manipuler avec facilité des objets dans un espace virtuel en trois dimensions. Une aubaine pour les scientifiques, qui ont multiplié les projets de science participative ces dix dernières années.
internautes,
100 000 planches
ont déjà été
indexées dans le
cadre du projet Herbonautes.
Un phénomène en plein essor
Dans l’Hexagone, le MNHN, toujours lui, se révèle particulièrement actif sur les projets liés à l’observation. Depuis 2006, pas moins de douze projets de comptage (des oiseaux, des papillons, des chauves-souris…), ont été lancés dans le cadre du programme Vigie Nature : six font appel à des naturalistes avertis (ornithologues ou entomologistes amateurs) et six font participer un public motivé mais sans connaissances particulières, comme L’Observatoire des papillons des jardins. « Disposer de données à grande échelle, notamment dans les zones urbaines peu observées par les chercheurs, se révèle essentiel dans le cadre du changement climatique et permet d’étudier le déclin ou au contraire l’essor de nombreuses espèces », ajoute Romain Julliard, qui indique que 80 articles scientifiques ont déjà été publiés grâce à ces bases de données collaboratives.
La Bibliothèque nationale de France (BNF) est, elle, bien décidée à mettre à profit notre intelligence graphique : elle s’apprête à lancer avec Orange, le 27 octobre, une ambitieuse plateforme de correction collaborative, Correct1. Objectif : améliorer les fichiers texte associés aux documents numérisés de sa bibliothèque en ligne, Gallica – soit trois millions de livres, fascicules de presse, cartes et autres documents. « Les logiciels de reconnaissance optique de caractères, aussi appelés OCR, sont loin d’être infaillibles, explique Arnaud Beaufort, le directeur général adjoint de la BNF chargé du numérique. Pour certains documents, on peut obtenir jusqu’à 99,9 % de reconnaissance de mots sur les pages scannées en haute définition, mais ce taux peut chuter à 60 % pour les documents anciens dont la qualité d’impression laisse à désirer (usure des caractères d’imprimerie, mauvais encrage…). En clair, cela signifie que 40 mots sur 100 dans le fichier texte comportent des erreurs. » Par exemple, un « i » suivi d’un « n » sera transformé en « m » par l’OCR, qui aura aussi une fâcheuse tendance à prendre les « g » pour des « c », une erreur que le cerveau humain ne fera pas. Des expériences similaires ont déjà été menées avec succès par d’autres bibliothèques numériques, celle de la Bibliothèque nationale d’Australie notamment.
Quid de la propriété intellectuelle ?
Diablement séduisante, la démarche de crowdsourcing suscite pourtant le scepticisme : certains, parmi les scientifiques, doutent notamment de la fiabilité des données collectées par des néophytes… « Comme lors d’une expérimentation scientifique classique, le chercheur qui fait appel au public doit mettre en place un protocole solide qui garantira que le processus de recueil de l’information sera le même pour tous les participants, se justifie Romain Julliard. Au Muséum, nous veillons à découper les projets en tâches simples et nous misons sur l’apprentissage. Dans le projet Herbonautes, par exemple, les participants progressent étape après étape : ils retranscrivent d’abord les dates, puis les lieux, et ainsi de suite, en fonction des scores obtenus à chaque étape. »
Le « nettoyage » des données collectées se révèle tout aussi crucial pour la crédibilité des résultats. « Il convient d’être extrêmement vigilant. Certaines occurrences relevées par les chercheurs peuvent être des faux positifs et indiquer une incompréhension des participants, voire l’action d’un logiciel malveillant, avertit Mokrane Bouzeghoub. En fonction des thèmes abordés, des minorités agissantes peuvent aussi être tentées de participer à telle ou telle étude dans le but de biaiser les résultats obtenus. »
La question de la propriété intellectuelle provoque, elle aussi, des réticences. À qui appartiennent les résultats publiés ? Le cas de Foldit risque d’effaroucher plus d’un scientifique : conçu par des chercheurs de l’université de Washington, ce serious game destiné à imaginer la structure en trois dimensions de protéines traditionnellement représentées en deux dimensions a donné lieu, pour la première fois dans l’histoire de la science, à la publication dans Nature d’un article cosigné par un groupe de gamers. C’était en 2010, et ces joueurs venaient de trouver la structure d’une enzyme impliquée chez le singe dans un virus très semblable au sida. « Si la question de la propriété intellectuelle est sensible, car elle conditionne notamment l’obtention de financements, il ne faut pas oublier que ce sont les chercheurs qui posent les questions, montent les protocoles, analysent et interprètent les données », rappelle Mokrane Bouzeghoub. La participation du citoyen, si elle fait avancer la science, n’éclipse en rien le rôle fondamental du chercheur.
- 1. Bientôt accessible sur Reseau-correct.fr
Mots-clés
Partager cet article
Auteur
Journaliste scientifique, Laure Cailloce est rédactrice en chef adjointe de CNRS Le journal. et de la revue Carnets de science.
Commentaires
Ajoutons que des plateformes
fouleur le 17 Septembre 2014 à 14h14Connectez-vous, rejoignez la communauté
du journal CNRS