Gestion et partage des données et des logiciels

Le concept de « data authorship » : reconnaître la paternité des données pour encourager leur partage

Les chercheurs sont aujourd’hui largement incités (par les financeurs, les journaux, les institutions…) à partager leurs données. Mais ces données ouvertes ne sont pas (encore) valorisées dans les systèmes d’évaluation comme le sont les articles ou les livres.

Un éditorial de Nature publié le 6 avril 2022 estime que « la révolution des données ouvertes n’aura lieu que si le système de recherche accorde autant d’importance au partage des données qu’à la paternité des articles. »

Pour mieux comprendre la situation actuelle, l’éditorial donne l’exemple de chercheurs qui ont publié un article basé sur l’analyse de plus de 120 000 scans IRM issus de plus de 100 études. Ils ont donc rassemblé des jeux de données de différentes sources et dont les conditions de réutilisation étaient variables. Selon les situations, les scientifiques ayant collecté ces données à l’origine ont été crédités différemment :

  • Certains scientifiques, dont les données n’étaient pas librement disponibles (réutilisation nécessitant un accord formel), sont devenus des co-auteurs de l’article.
  • Les chercheurs dont les données étaient accessibles librement ont été crédités dans les citations et les remerciements de l’article.

Cet article montre que le système actuel n’incite pas les scientifiques à partager librement leurs données : ils auront plus de chances d’avancer dans leur carrière s’ils sont auteurs de la publication et donc s’ils conservent leurs données en accès restreint.

Une solution à ce problème ? Faire en sorte que les scientifiques ayant généré les données soient identifiés et crédités de façon normalisée. C’est le concept de  « data authorship » (paternité des données), déjà décrit en 2017 dans un article publié dans le New England Journal of Medicine : Data Authorship as an Incentive to Data Sharing.

Ce concept part du principe que les personnes qui ont initialement recueilli les données (et rédigé les premiers articles sur le sujet) ne sont pas responsables des analyses et conclusions que d’autres scientifiques peuvent tirer de leurs données : les générateurs des données initiales (« data authors ») doivent donc être identifiés et cités de façon différente des auteurs d’un article de revue ayant utilisé ces données (« authors »).

Prenons un exemple : des scientifiques mettent leur jeu de données en libre accès sur un entrepôt et publient un article d’analyse de ce jeu de données dans une revue. Ils sont à la fois « data authors » et auteurs de l’article. Le jeu de données étant en libre accès, il est réutilisé par d’autres scientifiques, qui publient à leur tour un article proposant une analyse différente des données. Les créateurs du jeu de données sont crédités en tant que « data authors » mais ne sont pas auteurs de l’article.

Un concept intéressant. A quand une mise en application effective ?

Merci à Hervé Maisonneuve pour ses articles sur le sujet :