Vous êtes ici
À la recherche des émotions dans nos SMS
Moins de vingt-deux ans après l’envoi du tout premier SMS et huit ans après la création de Twitter, ce mode de communication en moins de 140 signes est devenu un phénomène de société. Sa popularité est telle que, pour la linguiste Rachel Panckhurst, « analyser cette forme spécifique de discours électronique est devenu primordial pour les chercheurs en sciences du langage, informatique, information-communication, psychologie, sociologie, etc., pour mieux comprendre de quelles façons la langue évolue et pour observer d’éventuelles mutations en cours à tous les niveaux de la société ». La chercheuse, membre de l’équipe Praxiling1, a ainsi coordonné le projet Sud4Science Languedoc-Roussillon, qui a permis de recueillir plus de 90 000 SMS émis entre septembre et novembre 2011. Ce corpus est le plus important jamais collecté en langue française. Cette initiative s’insère dans le projet international SMS4Science, coordonné par le Centre de traitement automatique du langage de l’Université catholique de Louvain (Belgique), dont le but est de constituer des corpus de SMS dans plusieurs pays francophones.
Les SMS modifient-ils la langue ?
Sud4Science doit d'abord permettre d’apporter des éléments de réponse objectifs à plusieurs questions que se posent les linguistes : les utilisateurs de smartphones sont-ils vraiment lexicalement créatifs ou se reposent-ils sur l’écriture intuitive, désormais intégrée dans le téléphone ? L’âge des scripteurs est-il un critère concernant le style d’écriture SMS ? Les SMS sont-ils plus longs maintenant qu’il y a dix ans, quand la limite des 140 signes était impérative ? Les forfaits mensuels incluant des SMS illimités contribuent-ils à des mutations quelconques ? Les outils de reconnaissance vocale (Siri, Iris, etc.) modifient-ils de manière importante les usages ? Le projet doit également permettre la création de nouveaux outils informatiques et statistiques capables de traiter automatiquement ce type d’écrits pour en extraire des marques d’émotions, de sentiments sur des sujets politiques. Autant d’informations qui pourraient servir aux sociologues, aux politistes et aux spécialistes en marketing à détecter, identifier et évaluer en temps réel les mouvements d’opinion et les tendances.
Des données difficiles à analyser
En effet, comme l’indique Mathieu Roche, chercheur en informatique à l’UMR Tetis du Cirad à Montpellier et coporteur d’un projet pluridisciplinaire Humanité-Mathématiques-Sciences de l’information (HuMaIn) lancé par le CNRS en 2013 : « On parvient aujourd’hui, à partir d’une analyse informatique du texte, à détecter de manière automatique si une critique de film est positive ou négative. La question que l’on se pose désormais est de savoir si on peut arriver au même résultat avec des textes courts de type SMS et tweet. » Cette tâche se révèle complexe, car les auteurs de tweets et de SMS modifient souvent l’orthographe et recourent à un lexique et une syntaxe peu conventionnelles. Ainsi, même si une autre étude menée par des chercheurs du Centre de recherche sur la cognition et l’apprentissage2 indique que la pratique du SMS n’a pas d’influence sur le niveau en orthographe des adolescents, il n’en demeure pas moins que les outils existants conçus pour analyser les textes « littéraires » ont de grandes difficultés à traiter correctement ces messages courts. Par exemple, les traces d’émotions sont habituellement détectées à partir de l’emploi de mots (aimer, bien, triste, etc.) spécifiques inventoriés par des dictionnaires plus ou moins exhaustifs. Or, dans les tweets et les SMS, les émotions sont souvent exprimées non seulement par des mots propres au SMS (mdr) ou des onomatopées (grrr, heu), mais aussi par des formes non verbales (smileys) ou des répétitions de caractères (yesssss, !!!!) .
Le défi de l’anonymisation
Il a donc d’abord fallu, avant d’effectuer la moindre analyse linguistique, nettoyer et organiser le corpus recueilli, non seulement pour le rendre exploitable pour la fouille de données textuelles, mais aussi pour l’anonymiser et respecter ainsi les obligations légales de respect de la vie privée. L’anonymisation des plus de 90 000 messages a ainsi constitué le premier gros défi technique du projet. La tâche, gigantesque, ne pouvant être réalisée intégralement « à la main » dans un temps raisonnable, le logiciel Seek & Hide a été spécialement développé par des étudiants en Master informatique afin d’effectuer une anonymisation semi-automatique3. Le logiciel s’appuyait sur deux dictionnaires : un premier contenant, en plus de tous les mots du français, certaines expressions récurrentes de l’écriture SMS (abréviations, smileys, etc.), et un second constitué d’une longue liste de prénoms.
Dans les messages du corpus, chaque mot passe à travers ce double crible, trois issues sont alors possibles. Première possibilité : s’il n’est reconnu que par le dictionnaire des noms communs, le mot est ignoré par le logiciel et laissé tel quel. Deuxième cas : s’il est reconnu exclusivement par le dictionnaire des prénoms, le mot est automatiquement anonymisé (remplacé par une balise du genre < PRENOM >). Enfin, s’il est reconnu par les deux dictionnaires (par exemple « pierre ») ou bien par aucun (par exemple « namrata »), le mot est alors marqué comme ambigu et devra être vérifié par un opérateur humain.
Seek & Hide a ainsi anonymisé automatiquement plus de 70 % des SMS du corpus, 30 % restant à traiter par des experts linguistes humains. Ces derniers ont ensuite dû identifier les cas où des mots étaient simplement mal orthographiés (« surment » ou « desole » pour « sûrement » ou « désolé »), ou bien ambigus quant à leur interprétation ; comme le mot « ben », pouvant par exemple désigner le diminutif de Benjamin ou la variante familière de « bien », comme dans « ben non ! ».
« Je » est le mot le plus utilisé
Une fois l’anonymisation terminée, les SMS ont été transcodés en français « standardisé » (« tan pi » est devenu « tant pis ») : le but étant de restituer l’orthographe et la grammaire afin d’aider la compréhension et de permettre un traitement automatique ultérieur, tout en évitant d’ajouter des éléments apocryphes. À partir de là, les chercheurs ont commencé à annoter les expressions des messages du corpus à l’aide d’étiquettes explicitant leur nature et leur statut linguistique. Un première analyse statistique du corpus a déjà révélé que les messages les plus courts sont « ok » et « cc », et que le plus long – un extrait de la théorie de la relativité d’Einstein – fait 4 658 caractères ; mais aussi que le mot simple le plus utilisé est « je » (36 153 occurrences), et que le trigramme (enchaînement de 3 mots) le plus employé est « je t’aime » (3 110 occurrences) suivi de « je sais pas » (1 414) et « c’est pas » (1 244). Enfin, parmi les 30 000 smileys utilisés, les cinq plus fréquents sont, par ordre décroissant : « :) », « ^^ », « : p », « : d », « < 3 ».
Le corpus va être organisé en une base de données accessible aux chercheurs, aux étudiants et au grand public. Celle-ci sera publiée sur le site d’Huma-Num, la Très grande infrastructure de recherche en sciences humaines et sociales lancée en 2013.
- 1. Unité CNRS/Univ. Paul-Valéry.
- 2. Unité CNRS/Université de Poitiers/Université François-Rabelais Tours.
- 3. P. Accorsi, N. Patel, C. Lopez, R. Panckhurst et M. Roche, « Seek & Hide : Anonymising a French SMS corpus using natural language processing techniques ». In : L.-A. Cougnon et C. Fairon, SMS Communication : A linguistic approach, Benjamins Currents Topics, 2014, 61 : 11-28.
Commentaires
Connectez-vous, rejoignez la communauté
du journal CNRS