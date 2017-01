Passionnée par le langage, Véronique Aubergé est une des grandes spécialistes de la robotique sociale, c'est-à-dire des liens que nouent les humains avec les robots. Nous l’avons rencontrée dans son laboratoire de Grenoble. Un entretien publié dans «Carnets de sciences», la nouvelle revue du CNRS.

C’est peu de dire que Véronique Aubergé est intarissable sur ses recherches. Quand on la retrouve ce matin d'hiver sur le campus de Saint Martin d'Hères, à Grenoble, on comprend vite qu’on va devoir lutter pour poser nos questions à cette véritable tornade rousse ! Le sujet qui obsède cette spécialiste du langage depuis son recrutement au Laboratoire d’informatique de Grenoble (LIG) en 2012 ? La robotique sociale, soit la façon dont nous nouons des liens avec les machines et la nature de ces liens. La chercheuse, qui a participé en 2016 à la création de la première chaire « Robotique et éthique » de France, a décidé avec son équipe de s’intéresser à un public en particulier : les personnes âgées isolées. Elle a l’intime conviction que les robots pourront aider à réparer le lien social, en « réentraînant » ces personnes au lien avec autrui. Ce jour-là, justement, son équipe s’apprête à recevoir une retraitée grenobloise au « living lab du laboratoire » – un véritable appartement de trois-pièces où la personne âgée va être laissée seule avec un drôle de robot à roulettes… Rencontre avec une passionnée, au cœur de la régie où écrans et commandes permettent d’orchestrer l’expérience en coulisses.

Avant d’en venir aux robots, parlons un peu de votre parcours. Depuis toujours, vous vous passionnez pour le langage. Comment cette quasi-obsession vous est-elle venue ?

Véronique Aubergé : Quand j’étais adolescente, je voulais être danseuse, j’ai même été prise à l’opéra de Genève. J’avais 14 ans et je voulais comprendre comment, alors que leur virtuosité technique était la même, un danseur pouvait émouvoir avec une figure et l’autre non. Je voulais comprendre ce qu’était la grâce. C’est un peu comme le charisme : en employant presque les mêmes formules, certains vont susciter l’adhésion par leur discours et d’autres pas du tout. Au-delà du vocabulaire employé, qu’est-ce qui fait un Gandhi ou un de Gaulle ? Cette communication au-delà des mots, au-delà de l’alphabet des figures de la danse, j’ai eu l’intuition qu’elle serait plus facile à percer avec la danse qu’avec la linguistique. Je voulais donc être danseuse professionnelle et faire de la linguistique « pour le fun ». La vie en a décidé autrement : mon corps a lâché et j’ai dû inverser mes priorités.

Vous avez pourtant fait de l’informatique avant d’étudier le langage…

V. A. : J’ai fait un détour pour arriver à la linguistique. J’étais bonne en maths, alors je n’ai pas vraiment eu le choix : on m’a orientée vers maths sup, puis je suis allée à la fac où j’ai suivi un cursus en maths et informatique. Ma chance, c’est que j’ai dû travailler pour payer mes études : j’ai donc fait le tour des labos à Grenoble et j’ai été prise à l’Institut de phonétique (devenu depuis l’Institut de la communication parlée), où je suis restée trente ans ! En deuxième année de fac, j’avais déjà décroché mon premier contrat de recherche avec le Centre national d’études des télécommunications (Cnet) : j’ai construit un petit programme pour faire du traitement de signal et acquérir les points remarquables de la parole avec un phonéticien. En même temps que mon cursus de sciences dures, j’ai suivi des cours de phonétique et des cours de psychologie afin de mieux comprendre l’individu qui parle. C’était assez inédit à l’époque, car ces disciplines ne se « parlaient » justement pas.

Les mots sont secondaires dans la communication entre les individus: on peut se faire comprendre d'un simple soupir... Vous vous êtes concentrée sur une modalité particulière du langage : la prosodie. Pouvez-vous nous en donner une définition succincte ?

V. A. : La prosodie, c’est la musique des mots : le rythme, l’intonation, les silences, l’émotion… Tout ce qui n’est ni le vocabulaire, ni la structure de la langue. On peut se faire comprendre par un simple soupir, cela prouve bien que les mots sont secondaires dans la communication entre les individus. Un bébé de 3 mois ne maîtrise pas le langage, mais il a déjà une très jolie prosodie communicationnelle : on sait s’il a faim, s’il est fatigué ou s’il fait une crise d’autorité. Mon objectif depuis toujours est de disséquer la langue orale jusqu’à en trouver les ressorts les plus intimes. C’est un travail de longue haleine : trente ans plus tard, j’y travaille encore !

Vous vous êtes notamment intéressée à l’apprentissage d’une deuxième langue, pourquoi ?

V. A. : Afin d’identifier les ressorts du langage parlé, j’ai pris le parti de m’attaquer aux situations où il était défaillant. Je me suis donc concentrée sur les pathologies de la communication, notamment les pathologies langagières dues, par exemple, à l’apprentissage d’une deuxième langue. Pour ce faire, j’ai beaucoup travaillé sur la prosodie du mandarin, du vietnamien, de l’anglais ou encore du japonais… Quand on s’empare d’une langue qui n’est pas sa langue maternelle, on développe des pathologies d’expression qui peuvent donner lieu à de graves malentendus : on peut maîtriser parfaitement le vocabulaire et la syntaxe d’une seconde langue, mais pas du tout sa prosodie… Cela montre bien que c’est là, dans cette prosodie, que se noue la communication. Ainsi, le ton d’un Japonais qui veut exprimer une politesse extrême sera perçu par un Occidental comme arrogant et autoritaire ; et plus le Japonais, ressentant ce malaise, tentera d’être poli, plus l’Occidental se raidira… À 12 ans, j’ai vu Les Sept Samouraïs, de Kurosawa : ces hommes totalement soumis à l’empereur semblaient pourtant, à mon oreille de jeune Française, lui parler comme à un chien. Je me suis dit qu’il y avait là quelque chose !

Dans le même temps, vous êtes devenue une spécialiste reconnue de la synthèse vocale…

V. A. : Oui, cela a même été mon premier vrai travail de recherche, menant notamment à la construction de systèmes de synthèse vocale en français. Lorsqu’on crée des systèmes qui reproduisent la parole humaine, il faut être capable de savoir comment cette parole fonctionne. Pour réaliser ces projets, j’ai surtout travaillé avec des industriels : eux se moquent de la théorie, ils veulent du résultat et c’est un excellent levier de motivation pour un chercheur. J’ai fait mon DEA sur la synthèse vocale au sein du Cnet, puis ma thèse chez l’industriel Oros qui avait dans les années 1980 un projet européen dans ce domaine. J’ai obtenu une certaine reconnaissance grâce à mes systèmes de synthèse, car ils étaient particulièrement intelligibles. Le Cnet et les Bell Labs ont même voulu m’embaucher. Mais je n’étais moi-même pas satisfaite de ces systèmes : j’estimais qu’on ne les évaluait pas selon les bons critères, car on n’avait tout simplement pas compris la communication humaine…

Si un système parle comme une hôtesse de l’air, il faut savoir pourquoi on utilise cette voix-là et quelles sont ses conséquences sur l’humain. Quelle erreur commettait-on avec les systèmes de synthèse vocale à cette époque ?

V. A. : Personne ne se demandait l’effet qu’une voix de synthèse produit sur l’humain avec lequel elle est en interaction. Par exemple, si un système parle comme une hôtesse de l’air, il faut savoir pourquoi on utilise cette voix-là et quelles sont les conséquences sur l’interlocuteur humain. Une bonne illustration en est le film Her, de Spike Jonze, sorti en 2014 : le héros tombe amoureux de Samantha, une voix de synthèse féminine intelligente, intuitive et étonnamment drôle… qui, après un certain temps, lui avouera qu’elle est amoureuse de 637 autres hommes ! Le héros avait fini par oublier qu’il s’adressait à une machine.

Votre arrivée au Laboratoire d’informatique de Grenoble, en 2012, a donné un nouveau tour à vos recherches…

V. A. : Après avoir été rattachée pendant près de trente ans à l’Institut de la communication parlée, je me retrouve pour la première fois dans un laboratoire 100 % informatique, mais qui a su donner une place à mes compétences en sciences humaines et sociales. Cela m’a ouvert à un nouveau domaine, la robotique, tout en me permettant de poursuivre ma vieille obsession : saisir ce qui, au-delà des mots et de l’information qu’ils véhiculent, crée le lien dans la communication parlée et que j’appelle la « glu socio-affective ». Grâce aux robots, j’ai l’espoir de comprendre enfin ce qui relie les gens entre eux, et peut-être même de réparer ce lien quand il est endommagé… Mon projet est d’examiner les interactions qui se jouent (ou pas) entre un robot et une personne qui a des difficultés à créer du lien social. Pour cela, j’ai choisi de travailler avec des gens âgés en situation d’isolement dans un premier temps. Certaines personnes très isolées perdent en effet le « mode d’emploi » des relations sociales et finissent par se montrer désagréables avec leur aide domestique ou leurs enfants lorsqu’ils viennent les voir. On sait aussi que les personnes isolées ont cinq fois plus de risque de développer des pathologies physiques ou neurologiques.

Comment construisez-vous vos expériences de robotique sociale ?

V. A. : Mon objectif, c’est de comprendre comment les gens s’attachent aux robots, comment ils le manifestent et si c’est reproductible. J’ai donc monté un protocole d’observation avec mon équipe. Nous utilisons le Living Lab Domus, un petit appartement de trois pièces recréé dans nos locaux, où toutes les commandes (actionner les stores, allumer la bouilloire électrique, la télévision ou la lumière) sont activées via un robot domotique appelé Emox. Ce petit robot doté de roulettes et haut d’une trentaine de centimètres nous a été fourni par la société Awabot, un fabricant qui se pose des questions sur les conséquences que la présence d’un robot a sur les humains autour de lui. Pour cela, nous observons des personnes âgées interagir avec Emox en conditions réelles. Afin de ne pas influencer l’expérience, nous ne leur disons pas la vraie raison de leur venue dans le Domus, nous prétextons qu’il s’agit de tester un appartement pilote pour personnes dépendantes.

Les robots ne doivent pas être des substituts à la présence humaine. Un robot conçu uniquement pour tenir compagnie, c’est extrêmement dangereux. Comment se déroulent ces rencontres ?

V. A. : Nous expliquons aux personnes qu’Emox est un robot à commande vocale et qu’elles doivent lui donner directement leurs consignes – « allume la télévision », « mets en marche la bouilloire » – pour faire fonctionner les appareils de l’appartement. Lui les suit docilement d’une pièce à l’autre. Généralement, deux cas de figure se présentent : si la personne est peu isolée, le robot va l’amuser un moment puis elle va rapidement s’en désintéresser ; si elle très isolée, elle va mettre un temps avant de s’intéresser au robot, hormis les quelques commandes qu’elle va lui adresser, puis les échanges vont progressivement s’intensifier jusqu’à devenir très nourris. Pour cette expérience, nous avons fait le choix d’utiliser un robot aux capacités langagières limitées : il émet de petits bruits de bouche, produit des onomatopées et prononce deux ou trois phrases courtes comme « Comme ça ? » ou « Je peux faire quelque chose ? »

Notre hypothèse est que ces petits bruits sont assez puissants pour créer la fameuse « glu socio-affective » entre l’humain et le robot. De fait, lorsque les personnes âgées commentent après coup l’utilisation de cet appartement, elles abordent spontanément la présence du robot dès les premières minutes et elles disent toujours la même chose : « C’est bien pour une personne un peu seule… » Cela confirme notre hypothèse selon laquelle Emox pourrait aider à réparer le lien social en « réentraînant » progressivement les personnes âgées au contact avec autrui.

Pourtant, vous êtes contre les machines « compagnons »…

V. A. : Il n’est pas question de faire des robots des substituts à la présence humaine. Un robot conçu uniquement pour tenir compagnie, c’est extrêmement dangereux tant qu’on ne saura pas précisément ce qui se joue dans l’interaction avec l’homme. C’est pourquoi il est important que le robot ait un rôle bien défini, qui ne pourrait pas être occupé par un humain : la domotique, comme dans le cas d’Emox, ou encore la purification de l’air intérieur. Je ne prends pas cet exemple au hasard : nous avons noué un partenariat avec l’industriel Partnering Robotics qui commercialise Diya One, un purificateur d’air, dans les entreprises, et qui veut comprendre pourquoi, contre toute attente, les salariés entrent en interaction avec lui. Certains le trouvent « gentil » car il se détourne de leur chemin (il est programmé pour éviter les obstacles), d’autres l’estiment au contraire « malpoli » ou « fuyant ». Partnering Robotics aimerait être en mesure de mieux comprendre et maîtriser ces réactions. L’humain est ainsi fait qu’il ne peut s’empêcher de faire de l’anthropomorphisme avec les objets de son environnement.

Emox n’est pas le seul robot que vous testez dans votre laboratoire…

V. A. : En effet. Nous avons un autre projet autour des robots de téléprésence, notamment ceux utilisés en milieu scolaire pour permettre aux enfants hospitalisés de suivre la classe à distance. Nous travaillons sur des robots déjà commercialisés comme Beam ou VGo – qui sont pour l’essentiel des systèmes de visioconférence télé-opérés. Mais nous voulons aller plus loin et nous développons avec le Fab Lab du laboratoire notre prototype de robot de téléprésence, RobAIR, qui sera en expérimentation dans une classe de l'académie de Dijon à partir du mois de février 2017. En classe, un élève n’est pas seulement en train d’écouter le professeur, il échange des regards ou des chuchotements avec ses voisins, par exemple. Ces interactions sont partie intégrante de son système attentionnel et conditionnent sa motivation à apprendre. RobAIR devrait donc proposer trois points de contact différents : le toucher vocal qui permet à l’élève absent de chuchoter à l’oreille de son voisin ; le toucher visuel qui permet de croiser le regard d’un autre élève (le robot est pour cela doté de leds clignotantes) ; enfin, le toucher tactile, puisque RobAIR est équipe de « hugs », des zones actives situées dans son « dos » qui permettent aux élèves d’exercer une pression que l’enfant absent ressentira grâce à un bruit vibratile.

Vous avez un parcours atypique, encore aujourd’hui…

V. A. : Oui, je suis une sorte d’ovni à l’université : j’ai en effet les qualifications pour faire de la recherche en informatique, en traitement du signal, en sciences de la communication et en sciences du langage. Mais il a fallu que je bosse dur pour cela, en suivant des tas de cursus en parallèle. Heureusement, les choses commencent à changer… À titre personnel, j’ai beaucoup lutté pour que des disciplines aussi fermées l’une à l’autre que les sciences du langage et l’informatique (que tout le monde nomme pourtant langage !) puissent enfin dialoguer au sein d’une même formation. Aujourd’hui, je suis responsable du département Informatique en langues, lettres et langage au sein de l’université de lettres de Grenoble, une petite révolution ! À l’intérieur de ce département, les formations consacrées au traitement automatique des langues ou à l’industrie de la langue sont particulièrement prisées par les industriels et les laboratoires, qui nous appellent directement pour « réserver » des étudiants. C’est l’une de mes plus grandes fiertés.

Cet article a été publié dans le premier numéro de Carnets de Science, la revue d’information scientifique du CNRS destinée au grand public. En vente dans les librairies et Relay, ainsi que sur le site Carnets de science.