Gestion et partage des données et des logiciels

Documenter ses données par des métadonnées tout au long de son projet : une check-list pour ne rien oublier

Le collège Données de la recherche du Comité pour la science ouverte a publié en janvier dernier un document intitulé « Faciliter la documentation des données grâce aux métadonnées dans un projet de recherche ». Ce document prend la forme d’une check‑list comportant des recommandations pour la gestion et la traçabilité des métadonnées à chacune des étapes du cycle de vie des données.

Le document souligne l’importance de l’étape de planification, qui conditionne toutes les autres. À cette étape, il est notamment recommandé de :

  • Identifier les jeux de données qui seront produits pendant le projet, ainsi que les entrepôts et catalogues (services de référencement de jeux de données, sans stockage des données elles-mêmes) cibles. Cette étape implique la rédaction de la version initiale du plan de gestion des données du projet.
  • Lister les métadonnées exigées par les entrepôts ou catalogues : métadonnées obligatoires (strictement nécessaires au dépôt) et optionnelles (recommandées pour une description optimale des données), ainsi que les contraintes associées (listes de valeurs imposées, vocabulaires contrôlés…).
  • Définir collectivement un ensemble de métadonnées supplémentaires à documenter. En effet, les métadonnées nécessaires à la future soumission des jeux de données ne suffisent pas à elles seules à garantir la reproductibilité scientifique. Il est indispensable, par exemple, de décrire précisément les étapes de traitement, les outils, les paramètres utilisés et l’environnement d’exécution. Pour vous aider, vous pouvez notamment chercher s’il existe un standard de métadonnées dans votre domaine.

Une fois cette liste de métadonnées définie, il est important d’établir collectivement une méthode de suivi adaptée au contexte du projet. Le format retenu peut être un tableur, un fichier texte structuré (type README), un fichier XML ou tout autre format structuré cohérent avec les contraintes identifiées.

Un document de suivi contenant la liste structurée des métadonnées devra donc être créé pour chaque jeu de données, puis mis à jour au fil du projet. Le document devrait être intégré à un système de gestion de versions permettant de tracer les modifications et d’identifier la version de référence. Il est recommandé d’accompagner cette liste de métadonnées d’une documentation détaillant les contraintes et exigences pour chaque métadonnée.

Les autres étapes du cycle de vie des données découlent de cette première étape de planification :

  • Collecte/Acquisition/Production : documenter précisément les conditions de création des données en suivant la liste structurée définie à l’étape de planification. Compléter la description avec toute information supplémentaire. Idéalement, une personne devrait vérifier que les métadonnées respectent les contraintes définies en début de projet, et recontacter le producteur si des compléments sont nécessaires.
  • Traitement/Analyse : tracer les étapes de transformation des données en complétant la liste établie en début de projet. Le responsable de l’analyse ou du traitement complète la description par toute métadonnée issue de son propre fonctionnement et indispensable à la traçabilité du jeu de données.
  • Préservation/stockage : garantir la conservation des métadonnées tout au long du projet. Si des données intermédiaires doivent être supprimées, conserver les métadonnées associées afin de garantir la traçabilité des fichiers et des traitements jusqu’à l’obtention du jeu de données final. Préserver l’ensemble de l’historique des fichiers de suivi.
  • Partage/diffusion : pour les jeux de données destinés à être déposés dans un entrepôt ou référencés dans un catalogue : vérifier la complétude et la cohérence des métadonnées, puis les convertir dans un format compatible avec les exigences des entrepôts et catalogues. Les métadonnées collectées au cours du projet mais non acceptées par l’entrepôt ou le catalogue peuvent être rendues disponibles, par exemple sous forme de fichier annexe (fichier README) associé aux données.
  • Archivage : associer les métadonnées renseignées tout au long du projet aux données archivées. L’archiviste vérifiera les métadonnées et pourra demander des informations complémentaires spécifiques à l’archivage.

Nous vous conseillons de vous référer au document qui contient des conseils détaillés pour chacune de ces étapes :

Frédéric de Lamotte, Véronique Stoll, Céline Hernandez, Cécile Arènes, Romain David, et al.. Faciliter la documentation des données grâce aux métadonnées dans un projet de recherche. Comité pour la science ouverte. 2025. ⟨hal-05455660⟩. Sous licence CC-BY