Sections

Le difficile stockage des masses de données

Le difficile stockage des masses de données

15.11.2012, par
Mis à jour le 29.01.2014
Big Data, Datacenter, Stockage de données, Google
Dans son datacenter, Google doit conserver la trace de milliards de pages Web.
Produire des flots de données ne sert pas à grand-chose si l’on ne peut pas les stocker quelque part. Partout dans le monde fleurissent des datacenters de plus en plus gros tandis que les chercheurs inventent de nouvelles méthodes de stockage.

Nos sociétés produisent un déluge de données et il faut bien les stocker quelque part. La solution la plus évidente est bien sûr de multiplier des unités de stockage, comme les disques durs qui équipent les ordinateurs ou les puces à mémoire flash de nos appareils mobiles. Mais, si ce principe général est valable pour les masses de données, sa réalisation ne coule pas de source. « Comparez le stockage à un chantier, explique Patrick Valduriez, directeur de recherches Inria au Laboratoire d’informatique, de robotique et de microélectronique de Montpellier (Lirmm)1. Plus vous voulez aller vite, plus vous embauchez d’ouvriers, mais plus leur coordination devient complexe. » En d’autres termes, empiler – les spécialistes disent paralléliser – les systèmes de stockage ne suffit pas, il faut aussi optimiser la façon dont ils travaillent ensemble.

Cette tâche est d’autant plus épineuse que les données sont non seulement très nombreuses, mais aussi hétérogènes et dynamiques. C’est pourquoi de nouvelles manières de stocker l’information ont vu le jour, notamment sous l’impulsion des géants de l’Internet comme Google, qui doit conserver la trace de milliards de pages Web. « Avec les grandes masses de données, on a vu apparaître des solutions spécifiques qui exploitent le parallélisme massif, avec de nouveaux modèles de programmation de cette parallélisation », indique Patrick Valduriez.

La floraison des datacenters

Un peu partout sur la planète fleurissent ainsi des centres de données, les datacenters, où sont installés de tels systèmes de calcul et de stockage massivement parallèles. « Surtout dans les pays du Nord, précise Patrick Valduriez. Car toutes ces machines doivent être constamment refroidies, et cela coûte moins cher de le faire sous un climat froid ! » L’accès à ces centres se fait par un réseau privé ou Internet. C’est ce dispositif que l’on désigne sous le nom de « cloud computing » : ce fameux nuage (cloud en anglais) qui permet de louer, de manière temporaire ou durable, un espace de stockage et même du temps de calcul.

C’est sur ce modèle que fonctionne le « nuage élastique de calcul » d’Amazon, service visant surtout les entreprises ou des services plus grand public comme les Google Apps et l’iCloud d’Apple, destinés aux utilisateurs d’ordinateurs, de tablettes et de téléphones. Avantage de cette solution informatique : elle peut s’avérer rentable pour les utilisateurs, qui ne paient que ce dont ils ont réellement besoin. Patrick Valduriez pointe cependant un inconvénient : « Ces services peuvent intéresser les entreprises pour des données non stratégiques, mais il est difficile d’avoir confiance dans ce système. Amazon a déjà connu une panne telle que des données n’ont pas pu être récupérées. »

Datacenter de Facebook implanté en Suède
Vue aérienne d’un des datacenters de Facebook implanté en Suède afin d’optimiser le refroidissement des machines.
Datacenter de Facebook implanté en Suède
Vue aérienne d’un des datacenters de Facebook implanté en Suède afin d’optimiser le refroidissement des machines.

Le problème de la sécurité et de la confidentialité des données

De fait, le développement des nuages se heurte encore à de nombreuses réticences. « Beaucoup d’entreprises hésitent à les utiliser pour des raisons de confidentialité, analyse Véronique Cortier, du Laboratoire lorrain de recherche en informatique et ses applications (Loria)2. La plupart du temps, les serveurs stockent les données de manière lisible, et les gens qui gèrent ces serveurs ont accès aux informations de leurs clients. » Pour résoudre ce problème, il suffirait, par exemple, de chiffrer les données chez le client, avant l’envoi dans le nuage. « Il y a des recherches en cours pour mettre au point ce type de solution, indique Véronique Cortier, mais cela rend plus complexe l’accès aux données, augmente les temps de calcul, et donc les coûts. »

Autre point faible : les nuages offrent un point d’entrée centralisé qui les rend vulnérables aux attaques de pirates informatiques. « Et, comme de nombreux sites proposent un contrôle d’accès unique pour tous leurs services, par exemple une messagerie électronique, un calendrier et l’accès aux documents, une attaque réussie peut faire de gros dégâts », souligne de son côté Hubert Comon-Lundh, qui travaille sur la sécurité des protocoles informatiques au Laboratoire spécification et vérification3, à l’École normale supérieure de Cachan. Pour parer ce genre de menaces, les recherches se concentrent sur la détection des attaques avant qu’elles surviennent et sur le cloisonnement des données.

En Europe, la question de la sécurité et de la confidentialité des données se pose d’autant plus que la plupart des fournisseurs de clouds, à l’image d’Amazon ou de Google, sont sous pavillon américain. Ils sont donc soumis au Patriot Act. Cette loi, adoptée par les États-Unis au lendemain des attentats du 11 septembre 2001, donne tout pouvoir au gouvernement fédéral pour accéder aux données hébergées sur le serveur d’une société de droit américain, quel que soit le pays où ce serveur est installé. Un droit de regard extraterritorial qui inquiète et semble freiner les utilisateurs européens.

À l’opposé de cette logique, « l’Union européenne vient, elle, de s’engager dans une réforme des textes pour renforcer la protection des données de ses entreprises et de ses citoyens », se félicite Patrick Valduriez. Un choix politique qui pourrait bien permettre à l’Europe, à la traîne des Américains dans le domaine du cloud, de regagner du terrain.

Notes
  • 1. Unité CNRS/UM2.
  • 2. Unité CNRS/Univ. de Lorraine/Inria.
  • 3. Unité CNRS/ENS Cachan.
Aller plus loin

Auteur

Denis Delbecq

Denis Delbecq, né en 1963, est journaliste indépendant. Ancien chercheur et enseignant, il a été rédacteur en chef adjoint à Libération. Il collabore, entre autres, à La Recherche, Tout comprendre, Science et Vie, Le Monde et Le Temps (Suisse). Il est également créateur de logiciels et photographe.

Commentaires

0 commentaire
Pour laisser votre avis sur cet article
Connectez-vous, rejoignez la communauté
du journal CNRS