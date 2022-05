Des scientifiques sillonnent la France à bord d’un camion entièrement équipé pour enregistrer et restituer la richesse du langage parlé en France. Un étonnant projet à découvrir les 18 et 19 mai sur le Campus Condorcet, à Aubervilliers, lors de la nouvelle édition des Innovatives SHS, salon de la valorisation en sciences humaines et sociales organisé par le CNRS.

Si l’idée de partir documenter des langues évoque de grandes expéditions internationales, cette mission peut aussi s’effectuer en sillonnant les routes de France en camion. Le projet Écouter-Parler se présente comme le laboratoire mobile des langues, avec à bord tout le matériel nécessaire. Il vise à constituer un corpus de la voix enregistrée afin de la décrire et de la modéliser, et ainsi assurer la conservation et la valorisation du langage du quotidien. Objectif : contribuer à créer la plus large base de données sur les langues parlées en France.

« Écouter-Parler est un dispositif atypique qui nous permet d’aller au contact des gens tout en restant reliés à nos plateformes technologiques », explique Olivier Baude, professeur de sciences du langage à l’université Paris-Nanterre, membre du laboratoire Modèles, dynamiques, corpus (MoDyCo) et responsable scientifique d’Écouter-Parler à la Délégation générale à langue française et aux langues de France (DGLFLF, ratachée au ministère de la Culture). L’ère du numérique a largement simplifié la collecte, le stockage, l’étude et la diffusion des documents sonores, offrant des outils dont les linguistes se saisissent peu à peu. Les données recueillies sont ainsi traitées pour en faciliter l’accès et la réutilisation selon les pratiques actuelles de la science ouverte.

Explorer la diversité du langage

« La langue parlée existe sous de très nombreuses formes différentes, c’est ce qu’étudie la linguistique variationniste, poursuit Olivier Baude. La langue change en effet selon les lieux, et ce au-delà de la seule question de l’accent, avec des régionalismes ou des syntaxes particulières. Des variations apparaissent selon les époques et les groupes sociaux, mais aussi selon des contextes et les moyens de communication. » Ainsi, on ne parle pas de la même manière à un ami au téléphone que lorsque l’on est en face d’un recruteur.

L’idée d’explorer cette diversité du langage à l’échelle de la France remonte au début du XXe siècle, avec les travaux du linguiste Ferdinand Brunot (1860-1938). « Jusqu’alors, les chercheurs travaillaient uniquement sur des documents écrits, souvent très uniformes, précise Olivier Baude. Dans les archives de la parole, son grand projet démarré en 1911, Ferdinand Brunot a réalisé les tout premiers enregistrements dédiés à la linguistique, et permis de travailler sur les formes orales des langues avec, pour la première fois, la possibilité de réécouter ce qu’il avait entendu sur le terrain. »

Ferdinand Brunot a ainsi parcouru la France pour enregistrer langues, dialectes et patois, aussi bien auprès de personnalités que de gens ordinaires au lavoir ou au café. La Première Guerre mondiale a cependant mis fin à son projet. Ses enregistrements ont été transférés en 1938 à la phonothèque nationale de la BNF, tout juste créée par Jean Zay, alors ministre de l’Éducation nationale et futur fondateur du CNRS. Ils ont depuis été numérisés et sont librement accessibles sur Gallica. Le CNRS s’est également doté de sa propre plateforme dédiée à l’archivage des documents sonores au début des années 2000 : CoCOon (pour Collection de corpus oraux numérisés). Celle-ci est hébergée au sein de l’infrastructure de recherche Huma-Num qui permet la conservation, le traitement et l’accès aux données de la recherche en sciences humaines et sociales.

Réaliser un « portrait sonore » de la France

« Ferdinand Brunot, déjà, tenait à faire entendre aux gens leurs propres enregistrements, souligne Olivier Baude, alors que les rouleaux de cire étaient si fragiles qu’ils s’abîmaient au bout de seulement quatre ou cinq écoutes. Il voulait vraiment rendre aux personnes enregistrées l’accès à ce savoir. » Le camion d’Écouter-Parler partage cet esprit et combine à sa vocation scientifique une mission de médiation, en permettant de faire écouter les enregistrements et de naviguer, grâce à un écran tactile, au travers d’énormes ressources sur les langues parlées en France. L’artiste Guykayser a même été associé à cette facette d’Écouter-Parler pour améliorer l’expérience pour le grand public.

De nombreux partenaires sont d’ailleurs impliqués dans cette aventure au contact des territoires et de la diversité linguistique française : le ministère de la Culture et sa DGLFLF, à l’initiative du projet et qui le porte avec le CNRS, la Maison européenne des sciences de l’homme et de la société (MESHS), MoDyCo et les partenaires du pacte linguistique de la Région Hauts-de-France.

« Ensemble, nous voulons dessiner un vaste portrait sonore de la France », s’enthousiasme Olivier Baude. Ce travail se manifeste d’abord par une phase de collecte grâce au matériel d’enregistrement installé dans le camion. La parole y est enregistrée sous forme d’interviews, mais aussi de discussions plus libres. Le camion suivra des « tournées » coordonnées par Thomas Chretien qui réalise une thèse sur les sciences participatives, en commençant par les Hauts-de-France pour étudier le picard, mais pourra également servir à des projets parallèles, par exemple liés à la mémoire d’un lieu ou d’un évènement précis.

Un intérêt pour la technologie

« En plus de la recherche et de la médiation, Écouter-Parler touche à de véritables enjeux technologiques, insiste Olivier Baude. Les assistants vocaux et les traducteurs automatiques se sont largement répandus, et nous voulons vérifier s’ils sont affectés par les accents ou les variations sociales du langage. » La collecte sert ainsi dans le cadre du projet Voice Lab, qui a récemment reçu une aide de 4,7 millions d’euros de la Banque publique d’investissements. Ce regroupement de start-up et de laboratoires de recherche, qui travaillent sur les technologies du langage, vise à constituer d’importantes ressources sur le français. « Sans cela, les Gafam continueraient d’avoir un quasi-monopole sur les grandes bases de données, indispensables à l’entraînement des intelligences artificielles », déplore Olivier Baude.

Pour l’instant, le camion circulera principalement en région Hauts-de-France et en métropole, mais l’équipe espère que le projet se déploiera également en outre-mer, puis hors du territoire national à la découverte de la francophonie. Considéré comme un prototype, il pourra également servir d’exemple pour d’autres laboratoires itinérants en linguistique et dans diverses disciplines. Son prochain arrêt sera à Aubervilliers, les 18 et 19 mai, afin de participer au salon Innovatives SHS 2022, organisé par le CNRS. ♦

Pour en savoir plus

Le site du salon Innovatives SHS, 18 et 19 mai 2022, Campus Condorcet, Aubervilliers