Lorsque vous partagez des données, il est important de vous assurer qu’elles sont compréhensibles et réutilisables par d’autres personnes qui n’utilisent pas nécessairement le même système informatique ou le même vocabulaire que vous. Il faut donc vous assurer que vos données sont interopérables, le troisième principe des principes FAIR.
Concrètement, des données sont interopérables si elles peuvent être combinées avec d’autres données et être utilisées et interprétées par différents systèmes. Cela implique notamment deux aspects :
- L’interopérabilité technique
L’interopérabilité technique dépend essentiellement du format de fichiers dans lequel les données sont enregistrées. Il est recommandé d’utiliser un format de fichier ouvert, standard ou largement utilisé. Les formats ouverts, à l’inverse des formats propriétaires, sont interopérables : une donnée enregistrée dans ce type de format est indépendante du logiciel utilisé pour la créer ; elle pourra être lue et modifiée par tous les logiciels destinés à traiter ce type du fichier.
Si vos données sont générées dans un format propriétaire, essayez de les transformer dans un format ouvert et interopérable avant de les partager ou pour les conserver sur le long terme. Si ce n’est pas possible (car le logiciel ne le permet pas ou parce que la transformation implique une perte trop importante d’informations), indiquez a minima dans les métadonnées associées au jeu de données le nom et la version du logiciel nécessaire pour lire les données.
Si vous avez vous-même développé un logiciel pour produire ou analyser les données, il est conseillé de le rendre public (via Github ou HAL par exemple) pour permettre à d’autres de lire vos données et reproduire vos analyses.
- L’interopérabilité sémantique
L’interopérabilité sémantique est plus complexe à atteindre. Son objectif est de permettre la compréhension des données par d’autres, de façon non ambiguë, en se basant sur des vocabulaires partagés et contrôlés a minima au sein d’un domaine scientifique (et, encore mieux, inter-domaines).
Pour cela, il est recommandé de se baser sur des standards de métadonnées, des vocabulaires standards ou des ontologies pour décrire les données et les variables utilisées. Une ontologie définit un vocabulaire commun dans un domaine particulier : elle inclut des définitions de chaque concept de ce domaine et les relations sémantiques entre ces concepts.
En pratique, vous pouvez rechercher des standards en utilisant le répertoire FAIRsharing. Vous pouvez notamment trier les standards par sujet (chemistry, genomics, medicine…) et par Record Type :
- Terminology artefact : vocabulaires et ontologies
- Model and format : formats de fichiers et formats d’échange de données
- Reporting guidelines : standards ou schémas de métadonnées
- Identifier schema : systèmes d’identification
Par ailleurs, si vous avez trouvé un entrepôt de données adapté à vos besoins dans lequel vous aimeriez déposer vos données à la fin de votre projet, il peut être intéressant d’étudier les standards de métadonnées, vocabulaires et ontologies utilisés dans cet entrepôt pour les utiliser dès la création ou collecte des données.