A la une
L’apprentissage séquentiel est une méthode algorithmique de prise de décision automatique qui s’adaptent et apprend en temps réel. Il est devenu indispensable dans de nombreux domaines et a notamment transformé le ciblage des publicités en ligne. Le projet BOLD vise à lever les freins qui limitent un plus ample développement de l’apprentissage séquentiel.
Avec la démocratisation de l’intelligence artificielle, l’apprentissage séquentiel est une technique de plus en plus répandue. Si cette méthode algorithmique de prise de décision est, en effet, l’une de celles utilisées pour l’apprentissage des intelligences artificielles, elle l’est également dans le secteur industriel, la santé, la publicité et bien d’autres. Le projet de recherche BOLD - pour « Beyond Online Learning for better Decision making », ou « au-delà de l'apprentissage séquentiel pour de meilleures prises de décisions » en français – a pour objectif de lever les barrières qui empêchent encore l’implémentation massive des modèles existants d’apprentissage séquentiel.
« La principale différence entre l’apprentissage séquentiel et l’apprentissage classique est, qu’en apprentissage séquentiel, les données sont observées et traitées à la volée, les unes après les autres : l’algorithme prend une décision, obtient ou non une récompense, met à jour ses paramètres, prend une nouvelle décision, et ainsi de suite, précise Vianney Perchet, enseignant-chercheur du Genes1 au Centre de Recherche en Economie et Statistique (Crest2) et coordinateur du projet BOLD. Alors qu’en apprentissage classique, nous essayons d’apprendre une fonction à partir d’un jeu de données déjà fourni. »
Dans le cadre de l’apprentissage séquentiel, les données étant traitées à la volée, l’algorithme va créer lui-même son dataset (ensemble de données) d’apprentissage. Cela représente une réelle difficulté puisque « les données sur lesquelles l’algorithme va pouvoir apprendre dans le futur peuvent alors être fortement biaisées, souligne Vianney Perchet. C’est ce que l’on appelle l’apprentissage par renforcement : l’algorithme prend des décisions, fait des observations qui vont influer sur les décisions et observations futures. Il existe donc un risque de rentrer dans des boucles non-vertueuses si on ne fait pas attention. »
En mathématiques, l’apprentissage séquentiel est un exemple du modèle des « bandits manchots », un problème mathématique dont le nom se réfère aux machines à sous des casinos. Ce problème permet justement d’imager l’apprentissage séquentiel.
« Si j’arrive dans un casino qui compte plusieurs machines à sous, il y en a peut-être une qui est meilleure que les autres. L’objectif est donc de découvrir quelle est la meilleure machine à sous, illustre le scientifique du Crest. Avec l’apprentissage séquentiel, on va essayer différentes machines jusqu’à finir par estimer celle qui a l’air d’être la meilleure, et ainsi se focaliser dessus. » Cet exemple permet de visualiser le problème posé par le dataset généré avec cette méthode : « Les données que va utiliser l’algorithme correspondent à l’observation des différentes machines à sous testées. Mais si l’une des machines à sous n’est jamais testée, il n’aura pas de données dessus et du coup les données obtenues par le passé peuvent être biaisées. »
Le modèle des « bandits manchots » et l’apprentissage séquentiel sont étudiés depuis les années 30 et ont connu un regain d’intérêt à partir des années 2000, notamment parce qu’ils trouvent une application dans la publicité en ligne. « L’application est simple : l’entreprise dispose de différentes publicités à proposer aux utilisateurs du site web et essaie de déterminer celle qui a le plus gros taux de rendement », explique Vianney Perchet.
Pour autant, en pratique, il existe plusieurs barrières à l’implémentation massive des modèles existants d’apprentissage séquentiel : le paradigme classique de « une donnée, une décision, une récompense » n'est pas adapté, l'optimalité des performances d'un algorithme est définie dans le pire cas, les algorithmes n'étaient pas conçus pour un environnement non-stratégique, ni interactif.
C’est face à ce constat qu’a démarré le projet BOLD en 2019. Ce dernier a notamment bénéficié d’un financement de l’Agence nationale de la recherche (ANR), dont l’objectif est de soutenir l’excellence de la recherche et l’innovation française sur le plan national, européen et international.
« Dans la mesure où le modèle classique est très bien étudié et relativement bien compris, nous avons souhaité aller plus loin que la théorie afin de répondre aux problèmes rencontrés par les entreprises, résume le scientifique du Crest. Tout au long du projet, nous avons donc discuté avec différents industriels, et nous avons créé des modèles qui sont plus proches des modèles concrets, pour qu’ils puissent être utilisés par la suite. »
Dans cet objectif, le projet BOLD a été mené par un consortium de quatre équipes : le CREST, l’Institut de mathématiques de Toulouse (IMT3), le Centre de recherche Inria Lille - Nord Europe et le laboratoire Mathématiques appliquées à Paris 5 (MAP54). Ce consortium regroupe bon nombre des scientifiques qui travaillent sur l’apprentissage séquentiel théorique en France, avec chacun des spécialités : informatique, statistique, algorithmique, applications ou théorique. « L’idée est de travailler ensemble pour pousser l’état de l’art au-delà de ce que nous savons tous faire indépendamment », souligne Vianney Perchet.
Ces recherches sur l’apprentissage séquentiel ont été menées dans des secteurs d’activités variés, allant de la publicité au commerce en ligne, en passant par les essais cliniques ou le secteur des voitures de transport avec chauffeur (VTC). « Nos recherches ne sont pas applicables en l’état, mais on donne des idées que les entreprises peuvent utiliser s’ils le souhaitent, et nous avons constaté que certaines de nos recherches ont effectivement été reprises », note Vianney Perchet.
L’un des exemples d’applications étudiées dans le cadre de BOLD porte sur l’« A/B test ». « C’est une méthode très utilisée, dont l’idée est la suivante : quand une entreprise dispose d’une nouvelle technologie qu’elle peut implémenter, elle doit la tester afin d’être sûre qu’elle sera bénéfique. Cela peut être le cas, par exemple, pour une entreprise du secteur de la tech qui dispose d’une nouvelle innovation, une entreprise pharmaceutique qui a développé une nouvelle molécule ou un designer de site web », explique le chercheur.
Dans le cas, par exemple, de la mise en place d’un nouveau design pour un site internet, deux sites seraient créés : un avec l’ancien format et l’autre avec le nouveau. Quand l’utilisateur se connecte sur le site web, il va être dirigé vers l’un des deux formats. Les retours de l’utilisateur sont observés afin de déterminer, au bout d’un moment, quel est le meilleur format. S’il s’agit de la nouvelle version, elle est alors implémentée. « C’est le même principe que de tester un nouveau médicament en le comparant à un placebo », souligne Vianney Perchet.
Ces « A/B test » peuvent être vus comme un problème du « bandit manchot » : chaque utilisateur qui se connecte fait partie soit de la population A (de test), soit de la population B (de contrôle) ; et ce test doit être optimisé avec le coût le plus faible possible. « Sauf que lorsque nous échangeons avec les entreprises, elles expliquent que les A/B test qu’elles réalisent s’avèrent quasiment tous être neutres : il n’y a pas de gain ou de perte, ou de manière très marginale. Mais pour de nombreuses entreprises, cela ne vaut pas le coup de passer énormément de temps à chercher une amélioration aussi faible. »
« En effet, les entreprises souhaitent détecter le plus rapidement possible les bonnes idées pour en implémenter le plus possible, poursuit Vianney Perchet. Afin de répondre à cet impératif, nous avons développé un méta-algorithme visant à déterminer si, pour chaque test, cela vaut la peine de le continuer ou pas. »
Ce problème illustrait parfaitement l’une des limites rencontrées en apprentissage séquentiel, qui a pu être surmontée dans le cadre de BOLD. « Avec cet exemple, l’idée de ‘‘une décision, une récompense, une mise à jour, etc.’’ ne marchait pas vu qu’il n’y a pas de récompense lorsque le résultat est neutre », explique le scientifique, précisant qu’il ne s’agit là que de l’un des nombreux exemples d’applications étudiées dans le cadre du projet.
Le projet BOLD prendra fin au printemps 2024, mais la recherche sur l’apprentissage séquentiel ne s’arrêtera pas là pour Vianney Perchet. En effet, l’enseignant-chercheur va la poursuivre avec un nouveau projet scientifique soutenu par l’ANR. « Nous avons identifié l’un des problèmes clé de l’apprentissage séquentiel. Il s’agit de l’apprentissage de la synchronisation de l’offre et de la demande ; et de manière séquentielle, souligne le chercheur. Pour la publicité, par exemple, il y a beaucoup d’utilisateurs et un grand nombre d’offres ; l’enjeu est de parvenir à les faire correspondre. »
Ce nouveau projet se trouve à l’intersection des mathématiques et de l’économie, et « toujours en collaboration avec des entreprises », insiste Vianney Perchet.
____________
1 Groupe des Écoles Nationales d'Économie et Statistique
2 Crest (CNRS/École polytechnique/GENES)
3 IMT (CNRS/INSA Toulouse/Université Toulouse III - Paul Sabatier/ INU Champollion/Université Toulouse Capitole/Université Toulouse - Jean Jaurès)
4 MAP5 (CNRS/Université Paris Cité)