Comment faire

Comment évaluer le niveau de conformité de ses données avec les principes FAIR ?

Nous vous parlons régulièrement des principes FAIR, mais comment savoir si vos jeux de données y sont conformes ? Ce n’est pas toujours très simple, car ces principes sont étroitement liés à l’informatique, leur objectif premier étant de permettre aux machines de trouver et d’utiliser automatiquement les données.

Nous vous proposons donc aujourd’hui une sélection d’outils qui pourraient vous aider à identifier le niveau de « FAIRisation » de vos jeux de données :

  • Des outils automatiques qui permettent d’analyser les jeux de données disponibles en ligne dans des entrepôts,
  • Des questionnaires qui vous permettent d’évaluer par vous-même la conformité de votre jeu de données aux différents critères FAIR.

Les outils automatiques 

Le fonctionnement de ces outils repose sur leur capacité à récupérer les métadonnées des jeux de données disponibles en ligne et à les comparer programmatiquement à des critères de conformité FAIR. Le niveau de « FAIRisation » d’un jeu de données dépend donc fortement de la capacité de l’entrepôt à exposer les métadonnées dans le format attendu par l’outil d’évaluation. Certaines métadonnées peuvent ainsi être visibles sur la page web décrivant le jeu de données mais ne pas être récupérées par l’outil.

L’outil F-UJI a été développé dans le cadre du projet FAIRsFAIR et fonctionne de la façon suivante :

  • Vous indiquez l’URL ou le DOI de votre jeu de données,
  • L’outil récupère les métadonnées depuis la page web du jeu de données, depuis le fournisseur d’identifiant (par exemple Datacite) et depuis d’autres services (comme re3data par exemple),
  • Il réalise une série de tests automatisés basés sur les métriques développées dans le cadre du projet,
  • L’outil fournit un niveau de FAIRisation (incomplet, initial, modéré, avancé) global et pour chacun des principes ainsi qu’un rapport détaillé permettant de comprendre les tests effectués et leurs résultats.

L’outil FAIR-Checker est dédié aux sciences de la vie et a été développé par l’Institut Français de Bioinformatique. Il propose deux modules :

– « Check » qui permet aux producteurs et aux utilisateurs de données d’évaluer un jeu de données :

  • Vous indiquez l’URL ou le DOI de votre jeu de données,
  • L’outil récupère les métadonnées depuis la page web du jeu de données,
  • Il réalise une série de tests automatisés, en identifiant les métadonnées manquantes par rapport aux recommandations BioSchemas et en évaluant si les vocabulaires ou ontologies utilisés sont bien indexés dans des registres comme OLS, LOV ou BioPortal.
  • Les résultats se présentent sous la forme d’un graphe qui indique un pourcentage de conformité vis-à-vis de chaque principe FAIR, ainsi que d’un rapport détaillé comportant des recommandations pour améliorer la FAIRisation du jeu de données.

– « Inspect » qui permet aux développeurs d’entrepôts d’explorer les métadonnées exposées et d’en améliorer la qualité.

Notons que l’analyse d’un même jeu de données par ces deux outils ne donnera pas les mêmes résultats car les tests automatisés ainsi que les sources de métadonnées sont différents.

Les questionnaires 

Le FAIR Data Self Assessment Tool est un questionnaire en ligne proposé par l’Australian Research Data Commons.

  • Vous répondez à 12 questions (en anglais) concernant l’un de vos jeux de données (en vous aidant des informations fournies en cliquant sur « What is this? »),
  • Au fur et à mesure de vos réponses, une barre de progression indique le niveau de FAIRisation,
  • Une fois le questionnaire complété, vous pouvez demander à recevoir par email un rapport contenant des liens vers des ressources complémentaires pour mieux comprendre les concepts liés aux principes FAIR.

L’outil SHARC est une grille d’analyse au format Excel proposée par le groupe d’intérêt Sharing Rewards and Credit de la Research Data Alliance. Disponible en français et en anglais, la grille permet d’analyser ses pratiques FAIR en répondant à 45 questions (pour la matrice complète) ou à 18 questions (pour la matrice minimale).

  • Vous choisissez la matrice complète ou minimale,
  • Pour chaque question, vous choisissez entre les propositions suivantes : Jamais/NA ; Seulement si obligatoire ; Parfois ; Toujours (en saisissant un « 1 » dans la ligne colorée correspondante, et en vous aidant du glossaire),
  • Le résultat de l’évaluation correspond au nombre de critères cochés par rapport au nombre total de critères, dans chaque groupe.

Pour conclure :

Obtenir un « niveau de conformité FAIR » n’est pas une fin en soi. L’objectif de ces outils est surtout de permettre une meilleure compréhension des concepts qui sous-tendent les principes FAIR. Cela pourra notamment vous aider à comprendre comment enrichir les métadonnées associées à vos jeux de données ou à choisir un entrepôt de données adapté.

Pour aller plus loin : retrouvez d’autres outils sur DoRANum