Gestion et partage des données et des logiciels

Le baromètre français de la science ouverte inclut désormais des indicateurs sur les données et logiciels

Le baromètre français de la science ouverte (que nous vous présentions ici) inclut depuis cette année des indicateurs (en version bêta) sur les données et logiciels produits par la recherche française.

Pour cette première édition, le baromètre sur les données et logiciels s’appuie sur des techniques d’intelligence artificielle pour extraire des informations à partir des publications scientifiques françaises. La prochaine édition prévoit d’intégrer les données françaises repérées dans les entrepôts de données.

L’approche méthodologique se base sur de la fouille de texte (Text and Data Mining, TDM) effectuée sur le texte intégral des publications françaises afin de détecter les mentions des jeux de données et logiciels (outils de TDM utilisés : GROBID, DataStet et SoftCite). L’accès au texte intégral étant nécessaire, cette analyse n’est conduite que sur une partie des publications françaises : celles en accès ouvert ou celles accessibles sur abonnement pour lesquelles l’éditeur autorise la fouille de texte (Elsevier et Wiley). Par ailleurs, les outils de TDM utilisés fonctionnent uniquement sur les publications en anglais.

Une étape de caractérisation est ensuite effectuée afin d’identifier si les jeux de données, codes et logiciels mentionnés dans les publications sont utilisés, créés ou partagés. Cette étape a nécessité l’annotation manuelle d’un corpus de publications pour entrainer un modèle de classification automatique (deep learning).

Des indicateurs ont ensuite été calculés (ci-dessous les indicateurs sur les données mais les mêmes indicateurs ont été calculés pour les logiciels) :

  • Proportion de publications pour lesquelles une mention d’utilisation de données a été détectée.
  • Proportion de publications pour lesquelles une mention de production de données a été détectée, parmi les publications qui mentionnent l’utilisation de données.
  • Proportion de publications pour lesquelles une mention de partage de jeu de données a été détectée, parmi les publications qui mentionnent la production et l’utilisation de données.

A noter que :

  • La mention de partage ne signifie pas forcément que les données ou logiciels sont en accès ouvert, ils peuvent être en accès restreint ;
  • Les mentions trop vagues (de type “Data available on reasonable request” ou “All relevant data are within the manuscript“) n’ont pas été retenues comme des mentions explicites de partage ;
  • Il n’a pas été vérifié si les données et logiciels étaient effectivement partagés (liens fonctionnels, fichiers disponibles…).

Pour les données de la recherche, un indicateur sur les Data Availability Statement (nous vous en parlions ici) a également été calculé (proportion de publications qui disposent d’une section “Data Availability Statement”). A noter que la présence de cette section ne signifie pas nécessairement que des données sont partagées, il est possible d’y mentionner qu’aucune donnée n’est associée à la publication.

Maintenant que vous avez compris la méthodologie, quels sont les résultats ? Retrouvez-les sur le site du baromètre français de la science ouverte :

 

Note : cet article a été écrit suite au webinaire du Club utilisateurs du Baromètre de la Science Ouverte détaillant la méthodologie adoptée pour le suivi des données & codes logiciels (8 mars 2023).

Print Friendly, PDF & Email