Vous êtes ici
Les prouesses de la compression vidéo
« Tous les trois ans en moyenne, la performance est multipliée par deux. » C’est ainsi que Patrick Le Callet, professeur à l’université de Nantes et chercheur au Laboratoire des sciences du numérique de Nantes (LS2N)1, résume l’évolution des technologies de production des flux vidéo. Une performance doublée permet de multiplier par deux – voire par quatre – le nombre de points d’une image à débit égal, ou de diviser le débit par deux à qualité égale. C’est ainsi que l’on peut désormais visionner des vidéos sur un smartphone avec une qualité qui n’a rien à envier à celle de nos anciens DVD vidéo.
Des chercheurs nantais sollicités par Netflix
Les équipes françaises ont acquis un savoir-faire de réputation mondiale dans ce domaine. Netflix, géant de la diffusion vidéo à la demande avec plus de cent millions d’abonnés dans le monde, s’est ainsi rapproché il y a deux ans du LS2N. Le laboratoire s’est forgé une triple compétence, plutôt rare : la mise au point de méthodes (ou algorithmes) de compression, la prédiction automatique de la qualité perçue par l’audience et enfin la conception et la standardisation de protocoles d’évaluation subjective de qualité perçue, qui pourrait s’appliquer à toutes les technologies de compression d’image. En mars 2017, lors du Congrès mondial de la téléphonie mobile de Barcelone, Netflix a présenté un nouvel outil de codage vidéo réalisé en collaboration avec le LS2N, qui offre une haute qualité d’image avec un débit de 100 kilobitsFermerLe bit est l’unité élémentaire d’information. La taille d’une image est le produit du nombre de points qu’elle contient (environ 2 millions de points) par le nombre de bits utilisés pour représenter chacun de ces points. par seconde – 40 fois plus faible que celui de la télévision en haute définition (HD) – qui est compatible avec les réseaux de téléphonie mobile. À noter qu’au-delà de cette collaboration contractuelle, Netflix est aussi un mécène du LS2N, une première hors des États-Unis pour l’industriel, avec un financement de travaux sans autre contrepartie que la diffusion des résultats sous forme de « licence libre » et accessible à tous.
Les 1001 façons d’encoder les images
La compression est une nécessité : les images brutes d’une caméra à haute définition représentent un flux de plusieurs centaines de mégabits par seconde, incompatible avec la capacité des supports de stockage et le débit des réseaux de télécommunication fixes ou mobiles. La compression consiste à supprimer un maximum de données peu utiles ou redondantes, tout en limitant la distorsion des images. Une opération qui demande de lourds calculs, si bien qu’on n’aura jamais la même qualité sur un flux télévisé en direct que pour un film à la demande que le diffuseur a eu tout le temps de compresser ! Et, bien évidemment, la méthode choisie doit respecter les standards de l’industrie, pour s’assurer que les appareils pourront décoder les vidéos. Depuis vingt ans, les algorithmes de codage ont permis une envolée de la taille des images : aujourd’hui, les producteurs de contenus commencent à diffuser du « 4K » – environ 4 000 pixels de large, soit 8 millions de points – ou pixels – par image. On est loin des 400 000 pixels du MPEG-2 de nos DVD, même si les débits sont très proches, de l’ordre de 5 mégabits par seconde !
« La norme HEVCFermersigle anglais signifiant codage vidéo à haute efficacité, la plus récente, est une boîte à outils », explique Patrick Le Callet. Ingénieurs et chercheurs ont toute liberté pour le codage, pourvu que, in fine, leurs flux vidéo respectent la norme. Chacun développe donc ses propres recettes. « Pour chaque image ou fragment d’image, il existe des millions de manières de procéder, qui pèsent sur la qualité de cette image mais aussi sur les suivantes. » De plus, on doit différencier le traitement selon qu’une scène est statique ou en mouvement : « Quand la caméra est fixe, la pelouse d’un stade laisse apparaître la texture de l’herbe. Si l’on n’y prend pas garde, quand la caméra bouge, la pelouse ressemblera à un tapis de billard sans relief ! » La méthode d’encodage doit donc constamment s’adapter – et de manière automatique – au fil des images qu’elle traite, tout en prédisant l’impact qu’aura un choix de codage sur la perception des images suivantes. « L’optimisation est un art qui nécessite à chaque instant de trouver le bon compromis entre la distorsion perçue de l’image et le débit d’informations », affirme Patrick Le Callet.
S’appuyer sur l’expérience visuelle
Pour modéliser la perception des images, le LS2N s’appuie sur des panels d’utilisateurs. Ces tests nourrissent des banques de données, lesquelles permettent de tester et valider les algorithmes de compression. « Nous étudions aussi des aspects en lien avec l’intention artistique, précise l'informaticien. Par exemple, pour éviter que la compression trahisse l’émotion voulue par le créateur des images. On utilise notamment l’oculomètre, un instrument qui suit en permanence le regard du spectateur. Ceci s’inscrit dans une meilleure appréciation de la qualité d’expérience, un champ de recherche en plein développement. » Le laboratoire se penche, entre autres, sur une technique de renforcement du contraste des images baptisée HDR. « On constate par exemple que certains écrans, selon le rendu HDR, peuvent rendre certains détails plus saillants ou, au contraire, en gommer la perception », ajoute-t-il.
Le HDR, sigle anglais signifiant « haute gamme dynamique », est – avec la compression – l’une des spécialités du Laboratoire des signaux et systèmes (L2S)2 de Gif-sur-Yvette, où travaille Frédéric Dufaux, directeur de recherche CNRS3. Cette technique, utilisée aussi en photographie, consiste à utiliser plus de bits pour coder chaque pixel, afin de percevoir davantage de détails dans les zones sombres ou très lumineuses d’une image. « L’enjeu, pour la télévision et la vidéo à la demande, est de coupler cette amélioration avec la diffusion d’images 4K sans peser sur le débit, explique Frédéric Dufaux. On s’appuie sur les caractéristiques de la vision humaine : ainsi, on consacrera plus d’informations à ce que l’œil perçoit mieux, et moins à ce qu’il voit moins. On tient compte aussi des situations, puisque les conditions de lumière peuvent évoluer rapidement, par exemple quand une caméra quitte un bâtiment pour se retrouver face à un ciel lumineux. » Le L2S a ainsi mis au point un algorithme associant HDR et HEVC. « Il offre les mêmes performances que les méthodes conventionnelles dans des situations d’éclairement peu complexes et il donne de meilleurs résultats pour des images dont le contraste est marqué et évolutif dans le temps. » De même, le laboratoire se penche de plus en plus sur le codage des images en trois dimensions, qui lui aussi demande des méthodes de compression spécifiques.
De la défense à la médecine, de nombreuses applications
La compression ne se limite pas à la diffusion des flux de télévision et de vidéo à la demande : « Elle est très employée en vidéosurveillance, pour la défense, et aussi en médecine, rappelle Frédéric Dufaux. De même, elle joue un rôle grandissant dans l’automobile avec les caméras de recul, d’alerte anti-collision, de franchissement de ligne continue ou de détection des panneaux routiers. » Chaque application exige des méthodes de compression spécifiques : alors qu’un téléspectateur ne supportera pas les distorsions, un militaire qui analyse l’image d’un drone de surveillance s’en accommodera, pourvu qu’elle lui permette de prendre la bonne décision. « En imagerie médicale, les médecins ne voulaient pas entendre parler de compression d’images, par peur de perdre des détails importants pour le diagnostic. À force de progrès, la compression est entrée dans les mœurs ! » Et cela concerne tous les appareils, puisque n’importe quel smartphone fait aujourd’hui beaucoup mieux en la matière que les gros ordinateurs de la fin du siècle dernier ! ♦
- 1. Unité CNRS/École centrale de Nantes/Université de Nantes/Institut Mines-Télécom Atlantique/Inria.
- 2. Unité CNRS/CentraleSupelec/Université Paris-Sud.
- 3. Coauteur, avec Patrick Le Callet, de l’ouvrage High Dynamic Range Vidéo. From Acquisition to Display and Applications, Academic Press/Elsevier, avril 2016, 630 pages.
Voir aussi
Auteur
Denis Delbecq, né en 1963, est journaliste indépendant. Ancien chercheur et enseignant, il a été rédacteur en chef adjoint à Libération. Il collabore, entre autres, à La Recherche, Tout comprendre, Science et Vie, Le Monde et Le Temps (Suisse). Il est également créateur de logiciels et photographe.