Donner du sens à la science

A propos

À travers différents projets mêlant plusieurs disciplines, ce blog vous invite à découvrir la recherche en train de se faire. Des scientifiques y racontent la genèse d’un projet en cours, leur manière d’y parvenir, leurs doutes… Ces recherches s'inscrivent dans le programme « Science avec et pour la société » de l’Agence nationale de la recherche (ANR).
Pour en savoir plus, lire l'édito.

Les auteurs du blog

Par le réseau de communicants du CNRS

A la une

Décrypter les récits historiques des Chams grâce à l’intelligence artificielle
16.09.2024, par Anaïs Culot
Mis à jour le 24.09.2024
Des travaux à la frontière entre histoire et informatique visent à déchiffrer des récits en cham ancien grâce à des techniques d'intelligence artificielle. À partir d’archives uniques au monde, les chercheurs espèrent restituer le contenu de récits historiques et ainsi permettre aux Chams d’aujourd’hui de se réapproprier leur héritage culturel.

Dans les recoins de notre société moderne, des récits oubliés murmurent à travers les âges. Mais sommes-nous encore capables de décrypter leurs messages ? Anne-Valérie Schweyer, historienne et épigraphiste à l’Institut français de recherche sur l’Asie de l’Est1, est spécialiste du Viêt Nam ancien. Elle déchiffre des inscriptions en cham2 ancien datant du Ve au XVe siècle. Ce savoir est aujourd’hui menacé d’extinction, tant dans la recherche que dans la société civile. « Le cham a beaucoup évolué au cours des siècles, si bien que le vocabulaire de base du cham ancien n’est aujourd’hui plus compris par les locaux. Il était urgent d’agir pour préserver l’histoire de ce royaume », confie la chercheuse.

Pour l’historienne, ce constat marque le début d’une expédition unique à la frontière entre histoire et informatique. Elle s’entoure d’informaticiens et de linguistes passionnés répartis aux quatre coins du monde. Ensemble, ils se lancent dans l’élaboration d’un programme de lecture basé sur des techniques d’intelligence artificielle (IA), capable de déchiffrer automatiquement les inscriptions en cham ancien. L’objectif : rendre ces écrits autochtones compréhensibles aux héritiers de cette histoire en perdition pour qu’ils se la réapproprient. C’est le projet ChamDoc - Cham Documentation.

© Joseph Gobin / IFRAE / CNRS ImagesDocument issu des archives royales du Pāṇḍuraṅga, point de départ du projet ChamDoc © Joseph Gobin / IFRAE / CNRS Images

Le voyage temporel de la langue cham

Au centre du Viêt Nam actuel et sur la majorité de ses côtes, le royaume Champa a prospéré pendant plus de dix siècles. Cette civilisation, axée sur le commerce, a notamment brillé pour son architecture et ses citadelles, ses sculptures ou encore ses tissages. Son histoire s’écrit en cham (prononcé « tcham »). Une langue qui s’est transformée à travers les âges au gré d’emprunts lexicaux variés. « Le cham ancien a emprunté l’écriture brahmi de l’Inde. Il comprend beaucoup de vocabulaire Sanskrit », explique Anne-Valérie Schweyer.

Suite à la destruction de sa capitale Vijaya en 1471 sous l’assaut de l’armée viêt venue du Nord, la communauté cham se rapatrie dans deux provinces au sud du pays. Elle oriente alors son activité commerciale vers la mer. « Aux environs du XVIe et XVIIe siècle, le sanskrit disparaît du vocabulaire des manuscrits, alors que des mots malais y fleurissent », poursuit l’historienne. En 1832, l’annexion de la dernière principauté cham par la dynastie impériale Nguyễn marque la fin de leur royaume. Une grande partie de la Communauté migre alors au Cambodge. Aujourd’hui, les Chams ne représentent plus qu’un million de personnes dans le monde et ne sont plus qu’une minorité parmi d’autres au Viêt Nam. Subsistent, au Cambodge et au Viêt Nam, deux langues qui ne se comprennent plus, chacune ayant emprunté du vocabulaire local.

Il va sans dire que les mutations linguistiques successives du cham compliquent l’étude de documents rédigés par cette civilisation. « La seule chose qui n’a pas changé à travers le temps, c’est l’utilisation du même alphabet alphasyllabaire. L’écriture se structure sur une consonne principale autour de laquelle s’inscrivent d’autres consonnes et des voyelles », décrit Anne-Valérie Schweyer. Le défi scientifique qui s’ensuit est de taille : entraîner un système informatique pour qu’il reconnaisse cette écriture atypique, mais aussi ses différentes évolutions temporelles.

Le mystère de la caisse de feuille

Afin de permettre à un modèle d’apprendre à lire et à déchiffrer une langue, il faut lui fournir des données en masse. Problème : l’histoire est souvent écrite par les vainqueurs. Les ressources documentaires en cham écrites par des Chams ont donc largement disparu avec leurs auteurs. C’est là qu’entre en jeu un acteur majeur du projet ChamDoc : les archives royales du Pāṇḍuraṅga. Il s’agit d’un ensemble documentaire de 17 000 pages manuscrites en cham. Un précieux artefact qui dormait au cœur des archives de la Société asiatique à Paris dans l’attente d’être re-découvert.

Les manuscrits sont initialement découverts au début du XXe siècle par les Français Henri Parmentier (un archéologue) et le Père Eugène-Marie Durand qui le définissent alors comme « une caisse de feuilles ». Il a été trouvé dans les montagnes du Viêt Nam. Un trésor caché par une dynastie cham au milieu d’objets en or, en argent et autres couronnes royales qu’ils ne voulaient pas voir tomber entre les mains des Viets. « J’ai passé des heures à le parcourir pour finalement prendre conscience de sa richesse historique. C’est le seul ensemble cohérent au monde de documents originaux du XVIIIe siècle qui a été écrit par des Chams », s’émerveille la chercheuse.

Le contenu est de type juridico-social : des contrats d’esclave, des déclarations de rizières, des jugements sur la propriété des terres, etc. Certains textes contiennent des extraits en chinois et en sino-vietnamien qui permettent de dater le document entre 1702 et 1810, période pendant laquelle la domination des Viets croît fortement. « Nous suivons la vie des gens à travers les pages. Les documents officiels sont par exemple signés en apposant la main, c'est-à-dire en traçant les deux phalanges du petit doigt et les trois phalanges de l’index dont l’espacement est propre à chacun » raconte Anne-Valérie Schweyer. Reste à alimenter la machine informatique !
© Joseph Gobin / IFRAE / CNRS ImagesSignatures chams sur un document des archives royales du Pāṇḍuraṅga © Joseph Gobin / IFRAE / CNRS Images

Chronique d’un outil informatique inédit

Anne-Valérie Schweyer s’est entourée d’informaticiens de La Rochelle et de Hanoï ayant préalablement travaillé sur d’autres écrits alphasyllabaires : Jean-Christophe Burie, professeur en informatique au laboratoire Informatique, Image, Interaction3 et Thi-Lan Le, professeure associée au laboratoire Multimedia, Information, Communication and Applications4. Pour redonner vie aux mots des Chams d’autrefois, les chercheurs se sont appuyés sur des images numérisées d’estampages et de manuscrits collectées par l’historienne. « L’objectif était d’entraîner les modèles à faire de la reconnaissance optique de mots dans les images », explique la chercheuse.

© Nguyen Nam TiênLe programme créé par les informaticiens du projet ChamDoc reconnaît automatiquement les lignes des manuscrits et propose une translittération du texte détecté. © Nguyen Nam Tiên

Première étape : améliorer la qualité des images et apprendre au système à dissocier les graphes des défauts (ou « bruit ») présents dans celles-ci. L’outil doit ensuite retranscrire le texte à l’identique. Une des difficultés est qu’en plus d’avoir une trentaine de consonnes, le cham repose aussi sur 26 voyelles et diphtongues. Pour que l’outil reconnaisse cette diversité, l’historienne lui a fourni 10 000 lignes retranscrites manuellement - quelques termes restent encore inconnus. Le système est désormais capable de retranscrire ces données annotées en faisant du mot à mot avec un taux de reconnaissance de plus de 99 %.

Prochaine étape : restaurer le manuscrit des archives royales du Pāṇḍuraṅga, prendre des photographies à très haute résolution et lancer le programme de lecture automatique sur les 17 000 pages. Toutes les images, leur translittération et leur traduction seront mises en ligne sur Salamandre, le site du Collège de France, en 2025.

Une dernière année pour finir en beauté

À terme, les retombées scientifiques devraient être multiples. D’un point de vue linguistique, ces recherches aideront à comprendre les évolutions du cham sur quinze siècles. Pour cela, la chercheuse travaille avec un linguiste canadien. Les données collectées au sein des documents du projet serviront à l’élaboration automatique d’un glossaire en accès libre.

D’un point de vue technique : l’outil d’IA pourra être transposé à d’autres langues à la structure similaire. C’est par exemple le cas du thaïlandais, du khmer et de langues anciennes de l’Indonésie. Libre à d’autres chercheurs de s’emparer de l’outil. « Entre les manuscrits et les estampages que nous avons collectés, nous avons également de quoi écrire une histoire de l’intérieur. Nous allons pouvoir comprendre les structures sociales, administratives, les relations qui animaient cette communauté. C’est la première fois, d’un point de vue historique, que nous pouvons le faire et j’ai hâte de partager ces éléments », s’enthousiasme la chercheuse.

--------------------
Pour aller plus loin

--------------------
Ces recherches ont été financées en tout ou partie, par l’Agence Nationale de la Recherche (ANR) au titre du projet ANR-ChamDoc-AAPG2019. Cette communication est réalisée et financée dans le cadre de l’appel à projets Science Avec et Pour la Société - Culture Scientifique Technique et Industrielle pour les projets JCJC et PPRC des appels à projets génériques 2018-2019 (SAPS-CSTI-JCJC et PRC AAPG 18/19).

Notes
  • 1. Unité CNRS/Inalco/Université Paris Cité
  • 2. « Cam » ou « Cham » ? L’habitude d’écrire « Cham » ou « Champa » a été prise à la suite des langues anglaise et vietnamienne pour des raisons de facilité de prononciation. L’appellation « Cam » respecte l’alphabet des Cams.
  • 3. L3i, La Rochelle Université
  • 4. MICA, Hanoï University of Science and Technology