Logo du CNRS Le Journal Logo de CSA Research

Grande enquête « CNRS Le Journal »

Votre avis nous intéresse.

Le CNRS a mandaté l’institut CSA pour réaliser une enquête de satisfaction auprès de ses lecteurs.

Répondre à cette enquête ne vous prendra que quelques minutes.

Un grand merci pour votre participation !

Grande enquête « CNRS Le Journal »

Sections

Stockage de données : les promesses de l’ADN synthétique

Dossier
Paru le 10.12.2020
Ces recherches qui ont (aussi) marqué 2020

Stockage de données : les promesses de l’ADN synthétique

28.09.2020, par
Mis à jour le 29.09.2020
Le projet européen OligoArchive travaille à établir des preuves de concept pour le stockage de données sur de l’ADN synthétique. Un support en théorie inégalé en termes de densité d’information et de longévité, mais qui souffre encore de limitations techniques à surmonter.

Deux millions de milliards de milliards de bits d’ici à 2025. L’explosion d’Internet et des réseaux sans fil a entraîné une accumulation extrême de données. « Si on devait réunir toutes nos données actuelles sur des Blu-ray, nous aurions vingt-trois piles de disques allant jusqu’à la Lune », décrit Marc Antonini, directeur de recherche CNRS au laboratoire d’Informatique, signaux et systèmes de Sophia Antipolis (I3S)1. Une inflation démesurée qui force les géants d’Internet à multiplier les data centers, de plus en plus souvent implantés dans des zones froides à cause de leurs besoins gigantesques en refroidissement.

Toutes les données du monde dans une boîte à chaussures

Dans la quête de systèmes de stockage plus adaptés, la chimie et les molécules du vivant intéressent différents chercheurs. Marc Antonini se penche ainsi sur l’ADN, dont un seul gramme peut théoriquement contenir jusqu’à 455 exabits d’informations, soit 455 milliards de milliards de bits. Toutes les données du monde tiendraient alors dans une boîte à chaussures.
 

Si on devait réunir toutes nos données actuelles sur des Blu-ray, nous aurions vingt-trois piles de disques allant jusqu’à la Lune.

Avec un tel besoin et l’amélioration des techniques de séquençage, l’idée séduit de plus en plus. « L’ADN a l’avantage d’être extrêmement compact et de résister au passage du temps, avance Marc Antonini. On parvient à séquencer de l’ADN de mammouths vieux de dizaines de milliers d’années, alors que les systèmes sur disque dur doivent être recopiés par sécurité tous les cinq ans, et ceux sur bande magnétique tous les vingt ans. » Des procédés laborieux et énergivores que l’ADN pourrait remplacer.

Marc Antonini et son équipe travaillent ainsi sur OligoArchive, un projet de trois ans financé à hauteur de trois millions d’euros par la Commission européenne, qui rassemble l’I3S, l’Institut de pharmacologie moléculaire et cellulaire (IPMC)2, l’école d’ingénieurs Eurecom, l’Imperial College à Londres (Royaume-Uni) et enfin la start-up irlandaise HelixWorks Technologies Limited. Ensemble, ils visent à obtenir une preuve de concept pour chaque étape du stockage sur ADN : synthétiser et stocker les données, puis être capable de les extraire le plus efficacement possible. Le projet ambitionne de construire un disque ADN : un prototype de bout en bout pleinement fonctionnel qui montre que l’ADN pourrait un jour remplacer les technologies actuelles de stockage d’archives sur bandes magnétiques.

Capsules hermétiques contenant de l’ADN synthétique. Ces capsules peuvent être conservées à température ambiante pendant des décennies, voire davantage.
Capsules hermétiques contenant de l’ADN synthétique. Ces capsules peuvent être conservées à température ambiante pendant des décennies, voire davantage.

Parmi les principaux écueils à surmonter : le prix. Qu’il soit naturel ou synthétique, l’ADN est composé de séquences de quatre nucléotides, aussi appelés bases. Les systèmes de stockage les utilisent dans un système quaternaire, contrairement au système binaire des ordinateurs. À l’heure actuelle cependant, synthétiser deux cents nucléotides coûte un dollar, sachant qu’encoder une seule image réclame plusieurs milliers de nucléotides. Cela empêche de convertir la masse gigantesque de données à laquelle nous faisons face.

Des données chaudes et froides 

Plusieurs solutions existent pour contourner le problème, comme déjà de ne pas tout conserver sur ADN. On distingue en effet les données froides des données chaudes. « Les données froides sont celles auxquelles on n’accède que rarement, voire jamais, comme les vieilles photos numérisées accumulées sur le cloud ou des archives administratives, explique Marc Antonini. Ce stock grandit de 60 % chaque année, alors que les capacités de stockage des systèmes actuels ne s’améliorent que de 20 %, ce qui pousse à construire toujours plus de centres. »

(Stocker des données froides sur ADN synthétique) serait précieux pour le monde du patrimoine culturel, qui pourrait facilement garder plusieurs copies d’archives de films ou de musées. 

Ces données froides n’ont cependant pas besoin d’être accessibles avec l’immédiateté des éléments utilisés au quotidien. Elles sont ainsi d’excellentes candidates pour des formes alternatives de stockage, comme sur ADN synthétique, car elles demandent moins d’encodages et de décodages successifs. « Ce serait précieux pour le monde du patrimoine culturel, qui pourrait facilement garder plusieurs copies d’archives de films ou de musées, souligne Marc Antonini. L’incendie du studio Universal en 2008 l’a malheureusement montré, de nombreux masters d’enregistrements ont été définitivement perdus car ils n’avaient pas été dupliqués. »

L’équipe d’OligoArchive étudie des solutions pour réduire les coûts : diminuer la quantité de nucléotides nécessaires pour stocker une même quantité d’information. Comme nous l’avons vu, l’ADN se compose de quatre nucléotides différents appelés A, C, G et T. Une première technique simple de codage ADN consiste à leur attribuer chacun deux chiffres binaires : A pour 0 0, C pour 0 1, G pour 1 0 et enfin T pour 1 1. On parle alors de transcodage.

Contourner les règles du vivant

Cependant, si le code ADN synthétique généré pour représenter une donnée numérique ne contient aucune information génétique compréhensible par le monde du vivant, il reste soumis à certaines de ses règles. Par exemple, si un nucléotide est répété trop de fois de manière ininterrompue, son séquençage va subir un certain nombre d’erreurs. Le transcodage ne permet ni de gérer cela facilement ni de contrôler la longueur, et donc le coût, des séquences ADN générées. Pour pallier ces problèmes, les chercheurs proposent d’intégrer un système de codage directement au niveau de la compression des données numériques. Le challenge consiste à créer des séquences de code ADN capables de contenir, en moyenne, encore plus de données numériques sur un même nombre de nucléotides. Ceci réduirait les coûts de synthèse. L’équipe conçoit également des algorithmes qui corrigent automatiquement les erreurs liées au processus de séquençage du code ADN lors du décodage.

Images numériques après codage et synthèse sur ADN. À gauche, séquençage et décodage au moyen d’une solution de compression non adaptée ; à droite, séquençage et décodage au moyen de la solution de compression développée par le projet OligoArchive.
Images numériques après codage et synthèse sur ADN. À gauche, séquençage et décodage au moyen d’une solution de compression non adaptée ; à droite, séquençage et décodage au moyen de la solution de compression développée par le projet OligoArchive.

« Lorsque l’on parle au téléphone, les canaux de codage ont parfois des problèmes de bruit qui hachent, voire coupent la communication, prend comme exemple Marc Antonini. Le bruit introduit par le séquençage de l’ADN produit en quelque sorte le même phénomène. Nous devons donc rendre l’encodage plus robuste et nous travaillons aujourd’hui dans cette direction. Nous aimerions de plus standardiser les systèmes de compression au-delà de notre groupe d’étude, et nous participons pour cela au comité de standardisation international JPEG. » L’équipe se donne trois ans pour apporter ses premières preuves de concept, et ainsi ouvre la voie à un usage concret du stockage sur ADN artificiel. ♦

À lire sur notre site
Des molécules pour stocker l’information

 
Notes
  • 1. Unité CNRS/Université Côte d’Azur.
  • 2. idem.
Aller plus loin

Auteur

Martin Koppe

Diplômé de l’École supérieure de journalisme de Lille, Martin Koppe a notamment travaillé pour les Dossiers d’archéologie, Science et Vie Junior et La Recherche, ainsi que pour le site Maxisciences.com. Il est également diplômé en histoire de l’art, en archéométrie et en épistémologie.

Commentaires

0 commentaire
Pour laisser votre avis sur cet article
Connectez-vous, rejoignez la communauté
du journal CNRS