Édition scientifique à l'ère de l'Open Access

Une étude alerte sur le risque de perdre l’accès à des millions de publications en ligne

Un article publié le 24 janvier dernier dans le Journal of Librarianship and Scholarly Communication (et repris plus récemment dans Nature) revient sur la problématique de la préservation des publications scientifiques et de la persistance des liens de citations entre ces publications.

Selon cette étude menée par Martin Paul Eve (développeur principal R&D à Crossref et professeur à Birkbeck, University of London), sur plus de 7 millions de publications en ligne comportant un DOI, environ 28% ne seraient pas correctement préservées dans une archive numérique majeure.

Le DOI (Digital Object Identifier) garantit l’identification unique et la pérennité du lien vers une ressource numérique : le DOI pointe vers une ressource numérique, quel que soit son emplacement. Ainsi, si l’URL d’une publication change, une mise à jour doit être effectuée pour que le DOI pointe vers sa nouvelle localisation. Dans le cas où un éditeur fait faillite, des dark archives peuvent ouvrir les documents de façon à ce que les DOI puissent être redirigés vers cette nouvelle localisation. Ces archives sont dites « sombres » car les copies des publications qui y sont stockées ne sont rendues accessibles qu’en cas de défaillance de la source d’origine.

Une question se pose alors : quelle est la proportion de publications scientifiques disposant d’un DOI qui sont conservées dans des dark archives reconnues ?

Pour répondre à cette question, Martin Paul Eve s’est basé sur The Keepers registry. Ce répertoire, géré depuis 2019 par le Centre international ISSN, recense les principales archives de publications respectant un certain nombre de principes de préservation sur le long terme. En comparant les publications disponibles dans ces archives et les données de Crossref (agence d’attribution des DOI), l’étude a montré que, sur un échantillon de 7,4 millions de publications :

  • 58% des publications sont conservées dans au moins une archive recensée dans The Keepers registry,
  • 28% des publications ne sont présentes sur aucune des archives étudiées.
  • Les 14% restants ont été exclus de l’étude, soit parce que les publications étaient trop récentes, soit parce qu’il ne s’agissait pas d’articles scientifiques, soit parce que les métadonnées étaient insuffisantes pour permettre d’identifier la source.

Martin Paul Eve reconnaît que cette étude a des limites : elle n’a pris en compte que les articles disposant d’un DOI et n’a cherché les articles que dans une sélection d’archives numériques (excluant notamment les entrepôts institutionnels et la Bibliothèque Nationale de France). Il en conclut cependant que la préservation numérique des publications reste fragile : une part importante des publications ne semble pas correctement préservée, ce qui met en péril le système d’identification pérenne et la chaîne de citations entre publications.

En France, la préservation des publications passe d’abord par le dépôt légal à la Bibliothèque Nationale de France mais il peut aussi émaner de la volonté des chercheurs et chercheuses : la pérennité des publications déposées dans l’archive ouverte HAL est assurée grâce à un partenariat avec le CINES (Centre Informatique National de l’Enseignement Supérieur).