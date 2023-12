Le projet Oupoco réinvente l’expression artistique en créant des poèmes à partir d’une riche collection de sonnets signés par 760 auteurs. Cette « boîte à poésie » illustre l’équilibre fragile entre la créativité humaine et la technologie. À l’origine du projet, Thierry Poibeau nous explique comment l’intelligence artificielle générative ravive ce débat aujourd’hui.

Qu’est-ce qu’Oupoco, cette « machine » à produire de la poésie ?

Thierry Poibeau. Oupoco, pour « Ouvroir de poésie combinatoire », permet de générer des poèmes à partir d’un corpus de 4872 sonnets de 760 auteurs dont les grands poètes du XIXe siècle comme Baudelaire, Rimbaud ou Verlaine mais aussi d’autres poètes aujourd’hui méconnus (Paul Arène ou Edmond Arnould), ainsi que de poétesses (Amélie Gex, Pauline de Flaugergues, etc.). Celui ou celle qui compose indique à la machine les contraintes qu’il souhaite imposer à son poème comme le choix des auteurs, le thème, le type de sonnets (sonnet français ou sonnet shakespearien par exemple) et le type de rimes, notamment. Sur cette base, nous avons créé avec la collaboration d’artistes plasticiens – Mathilde Roussel et Matthieu Raffard – une boîte à poésie. La Boîte à poésie est un dispositif ludique et portatif, qui permet de montrer le générateur de poèmes dans des lieux variés, des écoles par exemple.

Comment l’Oupoco prolonge-t-il l’Oulipo né dans les années 1960 sous la houlette de Raymond Queneau ? Quelles sont les similitudes entre les deux projets ?

T. P. Comme l’« Ouvroir de littérature potentielle », créé par Queneau avec le mathématicien François Le Lionnais, Oupoco est basé sur la combinatoire : on combine des vers en fonction des rimes, à partir d’une structure de sonnet. La Boîte à poésie est une sorte de prolongement du livre-objet Cent mille milliards de poèmes, créé par le poète . Lui-même avait qualifié son livre animé de « machine à fabriquer des poèmes » capable de fournir « de la lecture pour près de deux cents millions d’années (en lisant vingt-quatre heures sur vingt-quatre ». Il s’agit dans les deux cas de systèmes ludiques qui permettent de recombiner des textes déjà disponibles.

Au-delà de l’aspect purement ludique, la démarche s’inscrit dans la veine des recherches expérimentales sur la littérature qui s’interrogent sur la nécessité d’écrire alors même que nous disposons de documents en grand nombre sous formats électroniques et que nous ne pourrons jamais lire. Un poète américain, Kenneth Goldsmith, a théorisé cette question du « uncreative writing » que l’on traduit en français par « l’écriture sans écriture ». L’idée, assez provocatrice, est qu’en plagiant une œuvre, on ne copie pas mais on en crée une autre…

L’intelligence artificielle (IA) est capable désormais de produire des textes qui ressemblent à des poèmes. Quel saut technologique a permis cette avancée ?

T. P. Le saut technologique a été permis par les grands modèles de langue dont ChatGPT est aujourd’hui le plus connu. Ils permettent d’encoder toute la langue et, à travers la langue, des textes qui donnent beaucoup d’informations sur le monde. C’est à dire que ces modèles ne sont pas seulement linguistiques : ils créent des textes cohérents parce qu’ils sont capables de faire le lien entre différents domaines. Ces modèles n’ont évidemment pas de rapport physique au monde, mais parce qu’ils sont mis au point à partir de milliards de textes, ils peuvent par exemple fournir des traductions très fines, tenant compte du contexte, ce qu’on ne savait pas faire il y a peu encore.

Ces modèles sont en gros fondés sur trois éléments essentiels : la masse de données qu’ils peuvent ingurgiter comme on vient de le voir, la capacité de calcul qui a explosé ces dernières années grâce à de nouvelles puces (les GPU) et les algorithmes dits d’« apprentissage profondFermerOu deep learning. Classe d'algorithmes d'apprentissage automatique, à partir de données, sans production explicite de règles et utilisant des réseaux de neurones. ». Ce sont ces trois éléments conjugués qui permettent de produire des textes d’une grande cohérence ou, dans le cas qui nous occupe, des poèmes qui ressemblent à de la poésie. Je ne fais pas référence ici à Oupoco qui, lui, permet de générer des poèmes sur la base de poésies existantes.

Peut-on parler de créativité s’agissant d’une machine ?

T. P. C’est tout le problème de ces modèles que l’on a tendance à humaniser car ils génèrent du texte alors qu’il s’agit de modèles mathématiques. En fait, si le modèle a vu suffisamment de textes cohérents, il sera capable à son tour de produire un texte cohérent ou un sonnet qui ressemble à un sonnet.

Il y une quinzaine d’années, on aurait attribué un poème réalisé par une IA à un élève de 5 ans, aujourd’hui, le niveau est plutôt celui d’un lycéen… Mais peut-on dire pour autant que ces modèles sont créatifs ? Rien n’est moins sûr. Il est certain que les modèles produisent désormais des poèmes de meilleure qualité que beaucoup d’humains et ils les produisent de manière immédiate. Il y une quinzaine d’années, on aurait attribué un poème réalisé par une IA à un élève de 5 ans, aujourd’hui, le niveau est plutôt celui d’un lycéen…

S’agissant de la créativité, je ne pense pas que l’on puisse attribuer une telle qualité à une machine. Pour avoir de la créativité, il faut avoir un but, une intention, ce que n’ont pas les systèmes d’intelligence artificielle. Ce ne sont « que » des modèles mathématiques, l’intention reste donnée par l’humain qui fixe le thème. Faut-il chercher à aller au-delà ? C’est une question éthique qui reste en débat. Bien sûr, tant qu’il s’agit de poésie, on peut se dire que la démarche est inoffensive. Mais dans un autre contexte, cela peut poser problème. En particulier, la machine ignore totalement la notion de vérité, c’est évidemment une limite fondamentale.

Comment s’établit la collaboration entre chercheurs en littérature et chercheurs en informatique au sein de votre laboratoire (le Lattice) ?

T. P. Le groupe de travail baptisé Alta (Automatic Litterary Text Analysis), que je dirige au sein du laboratoire Lattice, vise ainsi à mettre au point des outils automatiques pour l’analyse de textes littéraires. Dans ce cadre-là, nous avons développé différents modules d’analyse permettant de reconnaître les personnages, d’analyser les chaînes de co-référence (les différentes mentions d’un même personnage : Macron… le président… il...), etc., et cela afin de pouvoir dériver des réseaux de personnages (quels personnages sont en relation ? Quelle est la nature de cette relation ?) dans un très grand nombre de romans. Grâce à la Bibliothèque nationale de France (BNF), nous travaillons sur un corpus de quelque 15 000 romans de la moitié du XVIIIe siècle jusqu’à la moitié du XXe siècle. C’est également la BNF qui nous a fourni les poèmes pour le projet Oupoco.

Ce qui est nouveau dans cette approche et qui intéresse grandement les chercheurs en littérature, c’est de pouvoir aborder des questions de formes littéraires sur le temps long, à grande échelle, en explorant un très grand nombre de textes. Un de mes étudiants, Jean Barré, travaille ainsi sur le canon. Peut-on identifier et reconnaître le canon de manière littéraire ? On peut envisager aussi d’explorer des questions comme l’évolution du roman d’aventure ou des thématiques plus proches de la sociologie comme la part des femmes dans les romans et le type d’actions auquel elles sont associées.

Du côté des chercheurs en informatique, il s’agit d’être en mesure de repérer les personnages, de leur donner un genre, faire de l’analyse syntaxique pour identifier les couples sujets-verbes (si l’on cherche à identifier quelles actions sont attribuées au genre masculin et au genre féminin par exemple) le tout sur de gros corpus. Certaines questions sont encore ouvertes (la performance des analyseurs de co-référence sur des textes longs reste assez faible par exemple). Plus globalement, pour des raisons à la fois de performance des analyseurs et de temps de calcul, ce type de recherches était impossible il y a encore quelques années. ♦