[Mise à jour d’un article initialement publié en juin 2021]
Avant de générer des données ou de développer un logiciel, il est toujours utile de vérifier s’il n’est pas possible de réutiliser des jeux de données ou des composants logiciels produits par d’autres scientifiques, et ce afin d’éviter la duplication des efforts. Voici donc quelques conseils pour vous aider à trouver des données et composants logiciels et savoir s’ils sont réellement réutilisables.
Pour trouver des données de recherche, vous pouvez :
– Utiliser des moteurs de recherche transversaux, comme par exemple :
- DataMed (que l’on vous présente ici) dans le domaine biomédical,
- Omics Discovery Index pour les sciences omiques,
- OpenAire Explore (que l’on vous présente ici) dans tous les domaines scientifiques,
- DataCite Commons dans tous les domaines scientifiques.
– Rechercher directement dans l’entrepôt d’intérêt
Les moteurs transversaux n’indexent pas tous les entrepôts de données. Si vous savez exactement quel type de données vous intéresse, vous pouvez compléter vos recherches directement dans l’entrepôt spécifique de ce type de données. Retrouvez ici comment trouver un entrepôt dans le domaine biomédical.
– Rechercher dans les data journals
Après une recherche bibliographique dans votre base de données favorite, vérifiez s’il est possible de filtrer les résultats pour afficher uniquement les data papers.
Pour trouver des logiciels ou composants logiciels, vous pouvez consulter différents répertoires, comme par exemple :
- Bio.tools (que l’on vous présente ici) : un répertoire de logiciels et bases de données enregistrés par les contributeurs, dans le domaine des sciences de la vie,
- BioImage Informatics Index : un répertoire de logiciels de bio-imagerie enregistrés par les contributeurs,
- Software Heritage (que l’on vous présente ici) qui collecte le code source de tous les logiciels disponibles publiquement, dans tous les domaines.
Une fois que vous avez trouvé un jeu de données ou un logiciel, vérifiez si vous pouvez le réutiliser :
– Vérifiez la licence et les conditions de réutilisation
La licence se trouve généralement dans les métadonnées décrivant le jeu de données ou le logiciel.
Pour les données :
- Si la licence n’est pas indiquée dans les métadonnées, cela signifie généralement que toutes les données de l’entrepôt sont soumises aux mêmes conditions de réutilisation. Dans ce cas, cherchez une section Data policy, Licensing ou Terms of use sur le site web de l’entrepôt (exemples : NCBI, Flow Repository, ImmPort, UniProt).
- Les licences les plus couramment utilisées sont les licences Creative Commons (CC). Vérifiez bien les options de la licence CC pour connaître les conditions de réutilisation des données (BY – attribution, NC – pas d’utilisation commerciale, SA – partage dans les mêmes conditions, ND – pas de modification). En France, vous trouverez également des données sous licence Etalab, équivalente à une licence CC BY.
Pour les logiciels :
- Si la licence n’est pas indiquée dans les métadonnées du répertoire, cherchez un fichier LICENSE ou README. En l’absence de licence, vous ne pourrez pas réutiliser le logiciel sans autorisation de l’auteur.
- Il existe une multitude de licences pour logiciels. Lisez attentivement les détails de la licence avant de télécharger et réutiliser un logiciel. En particulier, soyez attentifs aux licences des bibliothèques et paquets que vous utilisez comme composants de votre logiciel car elles peuvent imposer des restrictions pour le choix de la licence de votre futur logiciel.
– Vérifiez s’il y a suffisamment de métadonnées et de documentation pour permettre la réutilisation
Que ce soit pour un jeu de données ou un logiciel, une bonne description est indispensable pour connaître le contexte dans lequel il a été créé, la méthode employée, les instruments/paramètres utilisés, etc. Ces informations doivent être complètes, compréhensibles et cohérentes.
Enfin, si vous réutilisez un jeu de données ou un logiciel, pensez à le citer, notamment dans vos publications. On vous explique comment faire ici.


