Nous vous présentions précédemment les notebooks (ou documents computationnels), dont l’utilisation est censée améliorer la reproductibilité de la recherche. Mais est-ce vraiment le cas ? Et plus globalement, quelles sont les pratiques actuelles autour des notebooks ?
C’est ce que les auteurs de l’article Notebook and Open science : toward more FAIR play publié en décembre 2024 dans le Journal of Data Mining & Digital Humanities ont cherché à étudier. En analysant la littérature scientifique, ils proposent une synthèse des connaissances actuelles sur les pratiques en matière de notebooks. Le sujet étant émergent, seules 12 études empiriques ont été identifiées et analysées, et celles-ci se concentrent principalement sur les Jupyter notebooks.
L’un des premiers constats est la diversité des usages des notebooks. Ils peuvent être utilisés comme matériel de démonstration, comme une étape dans l’analyse des données, comme support de formation… On peut distinguer deux types de pratiques, assez opposées :
- les pratiques exploratoires : le notebook rassemble des tentatives, des croquis, des bouts de code et des résultats, souvent loin des bonnes pratiques de développement logiciel.
- les pratiques explicatives : le notebook constitue un document plus finalisé qui répond à des contraintes plus strictes de narration (exposition de la démarche et de la séquence des traitements) et de reproductibilité.
En ce qui concerne la reproductibilité des notebooks, elle n’est clairement pas assurée. Les études qui tentent de reproduire les notebooks obtiennent un taux de reproductibilité très faible, le premier problème étant de ne pas pouvoir exécuter le notebooks (22 à 26 % peuvent être exécutés) et ensuite de produire les mêmes résultats (environ 5 à 15 %).
Les auteurs de l’article listent plusieurs raisons :
- Un manque de documentation, comme la liste des logiciels tiers utilisés ou l’origine du code utilisé. L’utilisation collaborative des notebooks par des équipes pluridisciplinaires et les nombreuses itérations rendent également difficile le maintien d’une cohérence des pratiques de programmation et de la documentation.
- Le manque de cohérence dans l’exécution des cellules. La structure non linéaire du notebook et la possibilité d’en exécuter des parties spécifiques sans avoir à le parcourir de bout en bout peuvent rendre difficile la transparence des mécanismes d’exécution.
- La difficulté ou l’incapacité à versionner les notebooks.
- La qualité du code est souvent faible, probablement en raison de l’utilisation fréquente des notebooks comme outils exploratoires. Malgré la connaissance des bonnes pratiques de développement logiciel, les notebooks offrent une grande liberté et la rapidité est souvent privilégiée par rapport à la qualité.
Finalement, les auteurs de l’article appellent à mener des études plus approfondies sur l’évolution des pratiques et des écosystèmes de recherche face à l’essor de ce nouveau média. Ils espèrent également que de nouvelles recommandations communes seront développées pour faciliter l’application des principes de la science ouverte et de la gestion des données FAIR dans l’environnement des notebooks.
Source : Mariannig Le Béchec, Célya Gruson-Daniel, Clémence Lascombes, Émilien Schultz. Notebook and Open science : toward more FAIR play. Journal of Data Mining and Digital Humanities, 2024, pp. [En ligne]. ⟨10.46298/jdmdh.13428⟩. ⟨hal-04549986v3⟩. Sous licence CC BY-NC-SA.
Cet article de blog est sous licence CC BY-NC-SA 4.0


