Gestion et partage des données et des logiciels

Disparition de certains entrepôts de données : quel impact sur l’accès aux données ?

Avec l’augmentation du partage et de la citation des jeux de données, la question de la préservation sur le long terme des données devient essentielle. En effet, pour qu’une citation fonctionne, il faut s’assurer de la pérennité de l’accès au jeu de données cité.

Actuellement, la charge de la conservation à long terme des données repose essentiellement sur les entrepôts de données car il n’existe pas (ou peu) de systèmes de préservation comparables à ceux existants pour les publications (archives ouvertes notamment).

C’est cette problématique qui a poussé les auteurs d’un préprint publié sur arXiv (puis dans la revue Quantitative Science Studies) à se pencher sur le cas des entrepôts de données qui ferment et sur l’impact de cette fermeture sur la disponibilité des données.

A partir du répertoire re3data (dont on vous parlait ici), les auteurs ont identifié 191 entrepôts de données ayant fermé, ce qui représente 6,2 % des entrepôts référencés à la date de collecte. Ces entrepôts ont adopté deux stratégies pour éviter la perte de données :

  • 84 entrepôts (soit 44% de l’échantillon) ont migré leurs données vers un autre entrepôt ;
  • 23 entrepôts (soit 12% de l’échantillon) maintiennent un accès limité à leur collection de données.

Pour 90 entrepôts (47% de l’échantillon), aucune des deux stratégies n’a été adoptée, les données sont donc potentiellement perdues.

Finalement, les auteurs concluent que ce phénomène de disparition des entrepôts n’est pas rare, il fait partie du cycle de vie des entrepôts. Les responsables de ces infrastructures doivent donc l’anticiper et réfléchir à un moyen pour maintenir un accès aux données sur le long terme.

Ceci peut se faire à travers un processus de certification, processus qui nécessite de documenter la stratégie de préservation et de mettre en œuvre des mesures appropriées. A noter cependant que les auteurs de l’étude ont tout de même identifié un entrepôt certifié qui a fermé, malgré son engagement à maintenir l’accès aux données.

Enfin, si l’on se place du point de vue du scientifique, il est important de prendre en compte la pérennité de l’entrepôt lorsque l’on cherche un entrepôt pour partager ses données. C’est notamment l’un des critères pris en compte par le Comité pour la Science Ouverte dans sa note méthodologique Sélectionner un entrepôt thématique de confiance pour la diffusion des données de recherche.