Gestion et partage des données et des logiciels

Quelle accessibilité sur le long terme pour les données associées aux publications ?

Quand vous trouvez un article intéressant et que vous souhaitez accéder aux données associées, vous allez voir la section Data Availability Statement (DAS) (ou équivalent) de l’article ? Mais les informations dans le DAS suffisent-elles toujours pour accéder aux données ?

C’est cette question de l’accessibilité sur le long terme des données, codes et autres objets numériques signalés dans les DAS que Lisa M. Federer (National Library of Medicine, NIH) a étudié dans un article publié récemment dans PLOS ONE.

Pour cela, les URL et DOI (Digital Object Identifiers, une forme d’identifiant unique et pérenne) ont été extraits d’un corpus de près de 50 000 DAS provenant d’articles publiés dans PLOS ONE entre 2014 et 2016 (4 917 URL et 3 586 DOI uniques). Ces URL et DOI ont été utilisés pour tenter de retrouver, en juin 2021, les ressources référencées, par des moyens automatisés et manuels (les tests automatisés vérifient si l’URL ou le DOI sont encore valides, les tests manuels permettent de vérifier si l’URL ou le DOI pointent réellement vers la ressource référencée).

Les principaux résultats de l’étude sont les suivants :

  • La majorité des ressources associées à une URL ou un DOI restent disponibles et accessibles : 80% des ressources ont pu être récupérées automatiquement à partir des URL et DOI. L’auteur met en avant le contraste par rapport aux données mises à disposition par les auteurs « sur demande » : des études précédentes ont montré que seules 10 à 44 % des tentatives pour récupérer des données accessibles sur demande aboutissent à des données pertinentes (Savage et Vickers, 2009 ; Stodden et al., 2018). A noter que, dans ce dernier cas, le problème s’aggrave avec le temps (lorsque les auteurs changent d’institution, d’adresse électronique ou perdent la trace de leurs données) : selon Vines et al., 2014, la capacité à demander et à recevoir des données avec succès diminuait de 17 % par an après la publication.
  • Les ressources comportant un DOI ont significativement plus de chances de rester disponibles et accessibles que celles comportant une URL. Les tests manuels (sur 350 URL et 350 DOI) ont montré qu’il était plus facile de localiser les ressources comportant un DOI que celles comportant une URL (98% de réussite contre 78%).
  • Les ressources partagées dans un entrepôt ont significativement plus de chances d’être disponibles que celles partagées par une autre méthode : 84,3 % des ressources partagées dans un entrepôt restent disponibles, contre 72 % des ressources partagées par une autre méthode.

Vous l’aurez compris, ces résultats contribuent à montrer l’importance de partager ses données via des entrepôts de données, de choisir si possible un entrepôt attribuant des identifiants uniques et pérennes comme le DOI, et d’inclure ce DOI dans le Data Availability Statement de son article pour garantir l’accès aux données sur le long terme.

Pour finir, si vous l’aviez manquée : cette vidéo de la NYU Health Sciences Library vous montre avec humour tout ce qui ne devrait pas se produire lorsqu’un chercheur fait une demande de partage de données associées à une publication.

Print Friendly, PDF & Email