Vous êtes ici

^-A ⁺A

Imprimer

article

Stockage de données : les promesses de l’ADN synthétique

28.09.2020, par

Martin Koppe

Mis à jour le 29.09.2020

Temps de lecture : 7 minutes

Le projet européen OligoArchive travaille à établir des preuves de concept pour le stockage de données sur de l’ADN synthétique. Un support en théorie inégalé en termes de densité d’information et de longévité, mais qui souffre encore de limitations techniques à surmonter.

Deux millions de milliards de milliards de bits d’ici à 2025. L’explosion d’Internet et des réseaux sans fil a entraîné une accumulation extrême de données. « Si on devait réunir toutes nos données actuelles sur des Blu-ray, nous aurions vingt-trois piles de disques allant jusqu’à la Lune », décrit Marc Antonini, directeur de recherche CNRS au laboratoire d’Informatique, signaux et systèmes de Sophia Antipolis (I3S)1. Une inflation démesurée qui force les géants d’Internet à multiplier les data centers, de plus en plus souvent implantés dans des zones froides à cause de leurs besoins gigantesques en refroidissement.

Toutes les données du monde dans une boîte à chaussures

Dans la quête de systèmes de stockage plus adaptés, la chimie et les molécules du vivant intéressent différents chercheurs. Marc Antonini se penche ainsi sur l’ADN, dont un seul gramme peut théoriquement contenir jusqu’à 455 exabits d’informations, soit 455 milliards de milliards de bits. Toutes les données du monde tiendraient alors dans une boîte à chaussures.

Si on devait réunir toutes nos données actuelles sur des Blu-ray, nous aurions vingt-trois piles de disques allant jusqu’à la Lune.

Avec un tel besoin et l’amélioration des techniques de séquençage, l’idée séduit de plus en plus. « L’ADN a l’avantage d’être extrêmement compact et de résister au passage du temps, avance Marc Antonini. On parvient à séquencer de l’ADN de mammouths vieux de dizaines de milliers d’années, alors que les systèmes sur disque dur doivent être recopiés par sécurité tous les cinq ans, et ceux sur bande magnétique tous les vingt ans. » Des procédés laborieux et énergivores que l’ADN pourrait remplacer.

Marc Antonini et son équipe travaillent ainsi sur OligoArchive, un projet de trois ans financé à hauteur de trois millions d’euros par la Commission européenne, qui rassemble l’I3S, l’Institut de pharmacologie moléculaire et cellulaire (IPMC)2, l’école d’ingénieurs Eurecom, l’Imperial College à Londres (Royaume-Uni) et enfin la start-up irlandaise HelixWorks Technologies Limited. Ensemble, ils visent à obtenir une preuve de concept pour chaque étape du stockage sur ADN : synthétiser et stocker les données, puis être capable de les extraire le plus efficacement possible. Le projet ambitionne de construire un disque ADN : un prototype de bout en bout pleinement fonctionnel qui montre que l’ADN pourrait un jour remplacer les technologies actuelles de stockage d’archives sur bandes magnétiques.

Capsules hermétiques contenant de l’ADN synthétique. Ces capsules peuvent être conservées à température ambiante pendant des décennies, voire davantage.

Parmi les principaux écueils à surmonter : le prix. Qu’il soit naturel ou synthétique, l’ADN est composé de séquences de quatre nucléotides, aussi appelés bases. Les systèmes de stockage les utilisent dans un système quaternaire, contrairement au système binaire des ordinateurs. À l’heure actuelle cependant, synthétiser deux cents nucléotides coûte un dollar, sachant qu’encoder une seule image réclame plusieurs milliers de nucléotides. Cela empêche de convertir la masse gigantesque de données à laquelle nous faisons face.

Des données chaudes et froides

Plusieurs solutions existent pour contourner le problème, comme déjà de ne pas tout conserver sur ADN. On distingue en effet les données froides des données chaudes. « Les données froides sont celles auxquelles on n’accède que rarement, voire jamais, comme les vieilles photos numérisées accumulées sur le cloud ou des archives administratives, explique Marc Antonini. Ce stock grandit de 60 % chaque année, alors que les capacités de stockage des systèmes actuels ne s’améliorent que de 20 %, ce qui pousse à construire toujours plus de centres. »

(Stocker des données froides sur ADN synthétique) serait précieux pour le monde du patrimoine culturel, qui pourrait facilement garder plusieurs copies d’archives de films ou de musées.

Ces données froides n’ont cependant pas besoin d’être accessibles avec l’immédiateté des éléments utilisés au quotidien. Elles sont ainsi d’excellentes candidates pour des formes alternatives de stockage, comme sur ADN synthétique, car elles demandent moins d’encodages et de décodages successifs. « Ce serait précieux pour le monde du patrimoine culturel, qui pourrait facilement garder plusieurs copies d’archives de films ou de musées, souligne Marc Antonini. L’incendie du studio Universal en 2008 l’a malheureusement montré, de nombreux masters d’enregistrements ont été définitivement perdus car ils n’avaient pas été dupliqués. »

L’équipe d’OligoArchive étudie des solutions pour réduire les coûts : diminuer la quantité de nucléotides nécessaires pour stocker une même quantité d’information. Comme nous l’avons vu, l’ADN se compose de quatre nucléotides différents appelés A, C, G et T. Une première technique simple de codage ADN consiste à leur attribuer chacun deux chiffres binaires : A pour 0 0, C pour 0 1, G pour 1 0 et enfin T pour 1 1. On parle alors de transcodage.

Contourner les règles du vivant

Cependant, si le code ADN synthétique généré pour représenter une donnée numérique ne contient aucune information génétique compréhensible par le monde du vivant, il reste soumis à certaines de ses règles. Par exemple, si un nucléotide est répété trop de fois de manière ininterrompue, son séquençage va subir un certain nombre d’erreurs. Le transcodage ne permet ni de gérer cela facilement ni de contrôler la longueur, et donc le coût, des séquences ADN générées. Pour pallier ces problèmes, les chercheurs proposent d’intégrer un système de codage directement au niveau de la compression des données numériques. Le challenge consiste à créer des séquences de code ADN capables de contenir, en moyenne, encore plus de données numériques sur un même nombre de nucléotides. Ceci réduirait les coûts de synthèse. L’équipe conçoit également des algorithmes qui corrigent automatiquement les erreurs liées au processus de séquençage du code ADN lors du décodage.

Images numériques après codage et synthèse sur ADN. À gauche, séquençage et décodage au moyen d’une solution de compression non adaptée ; à droite, séquençage et décodage au moyen de la solution de compression développée par le projet OligoArchive.

« Lorsque l’on parle au téléphone, les canaux de codage ont parfois des problèmes de bruit qui hachent, voire coupent la communication, prend comme exemple Marc Antonini. Le bruit introduit par le séquençage de l’ADN produit en quelque sorte le même phénomène. Nous devons donc rendre l’encodage plus robuste et nous travaillons aujourd’hui dans cette direction. Nous aimerions de plus standardiser les systèmes de compression au-delà de notre groupe d’étude, et nous participons pour cela au comité de standardisation international JPEG. » L’équipe se donne trois ans pour apporter ses premières preuves de concept, et ainsi ouvre la voie à un usage concret du stockage sur ADN artificiel. ♦

À lire sur notre site
Des molécules pour stocker l’information

Notes

1. Unité CNRS/Université Côte d’Azur.
2. idem.

Voir aussi

Matière

Blog

19/01/2026

Les polymères, nouvelle voie pour la mise au point de nano-...

La sphère interne de Juno en construction, et on voit des ouvriers au travail

Article

21/01/2026

Infrastructures de recherche (2) : 5 sites hors norme

Blog

15/01/2026

Un système électrochimique pour l’épuration des eaux usées

Blog

12/01/2026

Vers l’autonomie énergétique des nanodispositfs

Kitt Peak National Observatory, in Tucson, Arizona, États-Unis

Article

12/01/2026

Infrastructures de recherche (1) : l’épopée des géants

Informatique

Article

14/09/2023

Penser des datacenters moins énergivores

Article

27/04/2023

Cryptoactifs : vers des alternatives éco-compatibles ?

Article

31/03/2023

Des mouchards dans les jeux mobiles

Article

23/01/2023

Quand le cloud se fait diffus

Article

18/01/2023

Un algorithme pour éviter les débris spatiaux

ADN

Blog

21/01/2026

À la conquête du collier d’ADN caché dans nos cellules

Image de nuit Simon Lacombe et Olivier Gimenez

Vidéo

23/01/2026

Le retour de la loutre d’Europe

Une scientifique observe une molaire d’une femme du Néolithique au microscope numérique.

Article

16/01/2026

Femmes du Néolithique (2) : les aventurières

Blog

15/12/2025

Gènes mode d’emploi : des balises cachées dans notre génome

Portrait d'un Dénisovien © Benoît Clarys

Article

21/07/2025

Les Dénisoviens, la lignée fantôme

Auteur

Martin Koppe

Diplômé de l’École supérieure de journalisme de Lille, Martin Koppe a notamment travaillé pour les Dossiers d’archéologie, Science et Vie Junior et La Recherche, ainsi que pour le site Maxisciences.com. Il est également diplômé en histoire de l’art, en archéométrie et en épistémologie.

En savoir plus sur l'auteur

Mots-clés

ADN ADN synthétique nucléotides Codage OligoArchive séquencage Stockage Données bits transcodage

Suivre

Personnalisez votre navigation

Sections

Vous êtes ici

Stockage de données : les promesses de l’ADN synthétique

Vous êtes ici

Stockage de données : les promesses de l’ADN synthétique

Toutes les données du monde dans une boîte à chaussures

Des données chaudes et froides