CNRS Le journal
Publié sur CNRS Le journal (https://lejournal.cnrs.fr)

Accueil > Données numériques: une jungle à défricher

Données numériques: une jungle à défricher

Vous êtes ici
Accueil [1]
Sociétés [2]
Numérique [3]
Informatique [4]
-A [5] +A [5]
article

Données numériques: une jungle à défricher

15.11.2012, par
Grégory Fléchet [6]

Mis à jour le 29.01.2014
Temps de lecture : 6 minutes
Carte représentant les maladies de 7,2 millions d'Américains
Représentation des maladies de 7,2 millions d'Américains et de leurs relations entre elles issue du Massachussets Institute of Technology (MIT).
MIT SENSEABLE CITY LAB
Comment trier et analyser les masses de données numériques que notre société en général, et la science en particulier, génèrent ? Les scientifiques sont sur le pied de guerre.

Aujourd’hui, si les chiffres correspondant aux informations numériques disponibles ont de quoi donner le tournis, ils soulèvent aussi une question essentielle : celle de la difficile analyse de ces masses de données considérables et en perpétuelle expansion. Professeur d’informatique et membre du Laboratoire d’informatique de Grenoble (LIG)1, Marie-Christine Rousset appartient à cette communauté de scientifiques qui tente de structurer le flot ininterrompu de données circulant sur la Toile : « Les pages que nous consultons tous les jours appartiennent au Web textuel qui regroupe des milliards de documents reliés entre eux, explique-t-elle. Pour autant, ces pages ne peuvent pas être exploitées comme une véritable base de connaissances, car elles ont été conçues pour être lisibles par des êtres humains et non par des machines. » Autrement dit, un moteur de recherche comme Google, dans lequel nous formulons une requête, se contente de proposer une liste de milliers de documents correspondant à cette demande. Il laisse ensuite à l’usager le fastidieux travail d’investigation destiné à identifier la réponse la plus pertinente à sa requête.

L’évolution vers un Web des données

Or, face à l’accroissement vertigineux des documents disponibles sur le Net, de tels modèles risquent d’être rapidement submergés par le flot d’informations à gérer. Quelle est l’alternative ? Faire évoluer le réseau actuel vers un Web des données : « Cette approche se fonde sur l’association de métadonnées aux adresses URL qui identifient les pages Web. Elle vise à casser la complexité du Web actuel en structurant l’information sur Internet de manière à pouvoir accéder plus simplement à la connaissance », résume Marie-Christine Rousset.

Cette évolution est déjà en marche au travers du W3C, le consortium international qui veille au respect des normes sur le Web. Certains embryons de ce Web, qualifié de sémantique car il permet aux machines de comprendre la signification de l’information circulant sur la Toile, existent déjà. Mais faire du Web sémantique un modèle universel reste une tâche ardue. « Greffer des algorithmes d’interrogation sur une base de données centralisée est une chose, commente la scientifique du LIG, mais y parvenir à l’échelle de cette gigantesque entité décentralisée qu’est le Web ne relève pas d’un simple problème d’amélioration technologique ! »

Simulation de l’Univers dans le cadre du projet Deus
La simulation de l’Univers dans le cadre du projet Deus générera plus de 150 pétaoctets de données.
CNRS Le Journal
Simulation de l’Univers dans le cadre du projet Deus
La simulation de l’Univers dans le cadre du projet Deus générera plus de 150 pétaoctets de données.
DEUS CONSORTIUM
DEUS CONSORTIUM
Partager
Partager
[7] [8] [9]

Comment fédérer et exploiter les données

Ces dernières années, un domaine scientifique a vu ses pratiques complètement bouleversées par les avancées technologiques : la recherche biomédicale. « Le volume d’information provenant de l’imagerie biomédicale s’est considérablement accru avec le passage au tout-numérique au cours des dix dernières années », témoigne Johan Montagnat, directeur de recherche CNRS au laboratoire Informatique, signaux systèmes de Sophia Antipolis (I3S)2 et coordonnateur, dans le cadre de Mastodons, du projet Credible, destiné à fédérer les données et les connaissances en imagerie biomédicale éparpillées au sein de plusieurs établissements hospitaliers sur le territoire français. « La stratégie consistant à centraliser des masses de données médicales sera tôt ou tard limitée par les capacités de stockage disponible, signale Johan Montagnat. De plus, la multiplication des instruments d’acquisition de données au sein des établissements hospitaliers rend inévitable la distribution de celles-ci sur différents sites de stockage. »

Pour éviter la
noyade dans
l’océan numérique
des grandes
masses de données,
il faut recourir à
des spécialistes en fouilles de données.

Mais cette logique fédérative se heurte à des difficultés techniques. En effet, il s’agit de faire converger deux types de données : des données brutes (images, résultats de traitements…) et des données dites symboliques, provenant de la description des premières : contexte d’acquisition des données brutes, caractéristiques anatomiques ou pathologiques extraites d’une image, etc. « L’un des principaux défis du projet Credible consiste à mettre au point une représentation sémantique de ces données symboliques dans le but de leur attribuer une signification scientifique », poursuit le chercheur. Ainsi harmonisées, ces bases de données, d’ordinaire très hétérogènes, pourraient alors être regroupées dans une même étude clinique, d’envergure nationale voire internationale. L’analyse, à une telle échelle, des ressources biomédicales fournirait aux chercheurs un moyen inédit pour répondre aux défis de santé auxquels ils se heurtent encore aujourd’hui.

Pour éviter la noyade dans l’océan numérique des grandes masses de données, il faut recourir à des experts : les spécialistes en fouilles de données. Partant des bases de données à l’état brut, ils sont chargés de faire remonter à la surface les connaissances qu’elles renferment. « Ce travail algorithmiquement difficile revient à parcourir un damier constitué de millions de lignes et de colonnes pour y repérer une poignée de motifs répétés », explique Jean-François Boulicaut, chercheur du Laboratoire d’informatique en images et systèmes d’information (Liris)3 de Villeurbanne.

Des données convoitées par les entreprises

Avec son équipe, cet expert met à contribution son savoir-faire dans le cadre du projet Mastodons sur l’analyse de masse de données de l’urbain et de l’environnement (projet Amadouer). Il s’agit ici d’explorer les bases de données de l’agglomération lyonnaise pour y recueillir les informations sur la pollution environnementale et le flux de circulation automobile. Le traitement de ces données doit aider à élaborer une nouvelle politique des transports en centre-ville. À l’aide de simulations mathématiques, l’objectif est de concevoir un modèle dans lequel la voiture n’aurait plus qu’une place limitée.

Revers de la médaille : ce type de données intéresse de très près certains groupes industriels qui souhaitent se les approprier à des fins commerciales, parfois au détriment de la communauté scientifique. « Il y a une vingtaine d’années, une société a voulu racheter les droits sur les photos numériques détenues par les musées de France, rappelle Jean-François Boulicaut. Or, comme la qualité du procédé était à l’époque loin d’égaler celle de l’argentique, le ministère de la Culture avait failli signer cet accord, avant de faire machine arrière. » Espérons que les décideurs politiques sauront faire preuve de la même clairvoyance dans l’eldorado de la recherche sur des grandes masses de données.

 

Notes
  • 1. Unité CNRS/UPMF/UJF/ Univ. Stendhal-Grenoble-III/INPG.
  • 2. Unité CNRS/Inria/Univ. Nice-Sophia-Antipolis.
  • 3. Unité CNRS/UCBL/Univ. Lumière-Lyon-II/Insa/Centrale Lyon.

Voir aussi

Sociétés
[10]
Article
13/05/2025
Énergies : le mythe de la transition [10]
Blog
07/05/2025
Tisser l’histoire méconnue des soies « sauvages » [11]
[12]
Article
12/05/2025
Une nouvelle vitrine pour la sono mondiale [12]
Blog
30/04/2025
Nos expériences orientent nos choix futurs [13]
Blog
25/04/2025
Les funérailles de Gilgamesh, héros divinisé [14]
Informatique
[15]
Article
14/09/2023
Penser des datacenters moins énergivores [15]
[16]
Article
27/04/2023
Cryptoactifs : vers des alternatives éco-compatibles ? [16]
[17]
Article
31/03/2023
Des mouchards dans les jeux mobiles [17]
[18]
Article
23/01/2023
Quand le cloud se fait diffus [18]
[19]
Article
18/01/2023
Un algorithme pour éviter les débris spatiaux [19]
Big Data
[20]
Blog
15/06/2022
Kayrros, le big data au service de la transition écologique [20]
Illustration montrant la géolocalisation des habitants de la ville de Paris.
[21]
Article
15/04/2020
Les données des réseaux sociaux mobilisées contre le Covid-19 [21]
Dispositif laser
[22]
Vidéo
28/05/2019
Comment fabriquer les mémoires du futur ? [22]
[23]
Article
29/08/2018
L’impossible modélisation de la société [23]
[24]
Dossier
25/09/2018
La bioéthique en question [24]

Mots-clés

Big Data [25] Données [26] numérique [27] Analyse [28] Web [29] Sémantique [30] Mastodons [31] Credible [32] Recherche [33]

Partager cet article

[34]
[35]
[7]
[9]

URL source:https://lejournal.cnrs.fr/articles/donnees-numeriques-une-jungle-a-defricher

Liens
[1] https://lejournal.cnrs.fr/ [2] https://lejournal.cnrs.fr/societes [3] https://lejournal.cnrs.fr/numerique [4] https://lejournal.cnrs.fr/informatique [5] https://lejournal.cnrs.fr/javascript%3A%3B [6] https://lejournal.cnrs.fr/auteurs/gregory-flechet [7] https://twitter.com/intent/tweet?url=https%3A//lejournal.cnrs.fr/print/261%2F&text=Données numériques: une jungle à défricher [8] http://www.facebook.com/sharer/sharer.php?s=100&p%5Burl%5D=https%3A//lejournal.cnrs.fr/print/261&p%5Btitle%5D=Donn%C3%A9es%20num%C3%A9riques%3A%20une%20jungle%20%C3%A0%20d%C3%A9fricher&p%5Bimages%5D%5B0%5D=https%3A//lejournal.cnrs.fr/sites/default/files/styles/lightbox-hd/public/assets/images/halo006_rpcdmw5.jpg%3Fitok%3D4IusOoYn&p%5Bsummary%5D= [9] https://bsky.app/intent/compose?text=Données numériques: une jungle à défricher%0Ahttps%3A//lejournal.cnrs.fr/print/261 [10] https://lejournal.cnrs.fr/articles/energies-le-mythe-de-la-transition [11] https://lejournal.cnrs.fr/nos-blogs/focus-sciences/tisser-lhistoire-meconnue-des-soies-sauvages [12] https://lejournal.cnrs.fr/articles/une-nouvelle-vitrine-pour-la-sono-mondiale [13] https://lejournal.cnrs.fr/nos-blogs/dialogues-economiques/nos-experiences-orientent-nos-choix-futurs [14] https://lejournal.cnrs.fr/nos-blogs/breves-mesopotamiennes/les-funerailles-de-gilgamesh-heros-divinise [15] https://lejournal.cnrs.fr/articles/penser-des-datacenters-moins-energivores [16] https://lejournal.cnrs.fr/articles/cryptoactifs-vers-des-alternatives-eco-compatibles [17] https://lejournal.cnrs.fr/articles/des-mouchards-dans-les-jeux-mobiles [18] https://lejournal.cnrs.fr/articles/quand-le-cloud-se-fait-diffus [19] https://lejournal.cnrs.fr/articles/un-algorithme-pour-eviter-les-debris-spatiaux [20] https://lejournal.cnrs.fr/nos-blogs/de-la-decouverte-a-linnovation/kayrros-le-big-data-au-service-de-la-transition-ecologique [21] https://lejournal.cnrs.fr/articles/les-donnees-des-reseaux-sociaux-mobilisees-contre-le-covid-19 [22] https://lejournal.cnrs.fr/videos/comment-fabriquer-les-memoires-du-futur [23] https://lejournal.cnrs.fr/articles/limpossible-modelisation-de-la-societe [24] https://lejournal.cnrs.fr/dossiers/la-bioethique-en-question [25] https://lejournal.cnrs.fr/big-data [26] https://lejournal.cnrs.fr/donnees [27] https://lejournal.cnrs.fr/taxonomy/term/212 [28] https://lejournal.cnrs.fr/analyse [29] https://lejournal.cnrs.fr/web [30] https://lejournal.cnrs.fr/semantique [31] https://lejournal.cnrs.fr/mastodons [32] https://lejournal.cnrs.fr/credible [33] https://lejournal.cnrs.fr/taxonomy/term/recherche [34] http://www.facebook.com/sharer/sharer.php?s=100&p%5Burl%5D=https%3A//lejournal.cnrs.fr/print/261&p%5Btitle%5D=Donn%C3%A9es%20num%C3%A9riques%3A%20une%20jungle%20%C3%A0%20d%C3%A9fricher&p%5Bimages%5D%5B0%5D=&p%5Bsummary%5D= [35] https://lejournal.cnrs.fr/printmail/261