Kate Laskowski, chercheuse en écologie comportementale à l’UC Davis, était invitée à la conférence 2024 de la Society for Open, Reliable, and Transparent Ecology and Evolutionary Biology (SORTEE) pour raconter le processus qui l’a menée à rétracter trois articles. Son intervention vidéo intitulée What to do when you don’t trust your data anymore est très claire et instructive.
L’histoire commence en 2019 quand un collègue l’informe qu’il a remarqué des valeurs dupliquées dans les données publiées sur Dryad associées à l’un de ses articles publié en 2016. Ces données sont issues de travaux qu’elle a menés avec Jonathan Pruitt, chercheur renommé à la McMaster University : les données étaient collectées dans le laboratoire de ce dernier, Kate se chargeait de l’analyse.
Ayant conservé les scripts R, Kate a pu reproduire les étapes de traitement des données et écarter l’hypothèse selon laquelle ces duplications proviendraient du traitement des données brutes. Elle a également écarté les explications méthodologiques et biologiques. Finalement, n’étant pas capable d’expliquer ces duplications et n’ayant plus confiance en ses données, Kate a décidé de rétracter la publication. En effet, en retirant les données corrompues, il n’était plus possible d’étayer les résultats présentés.
En explorant les autres jeux de données provenant du laboratoire de Jonathan Pruitt, Kate a retrouvé les mêmes irrégularités et a finalement rétracté deux autres articles. L’affaire a fait boule de neige et d’autres chercheurs ayant travaillé avec des données collectées par ce laboratoire ont également trouvé des anomalies dans leurs données. De plus en plus d’articles ont été rétractés et Jonathan Pruitt a fini par démissionner en 2022.
En 2023, la McMaster University a publié les résultats de ses investigations : il s’avère que Jonathan Pruitt s’était livré à de la fabrication et de la falsification de données.
Kate Laskowski veut tirer des leçons de cette histoire :
Elle souligne la nécessité de garder des traces, de documenter toute sa recherche : par des cahiers de laboratoire, des notebooks, des photos, des vidéos… Pour elle, il est important de travailler de façon reproductible, avec des systèmes de contrôle de version des données et du code, en utilisant des langages comme le R markdown…
Elle insiste également sur le fait que la science ouverte est nécessaire : les anomalies sur ses données ont été découvertes parce que le jeu de données était disponible publiquement. Il est donc essentiel de partager ses données et son code. De plus, elle note que cette expérience l’a incitée à améliorer ses pratiques de gestion des données, notamment pour s’assurer de pouvoir retrouver et lire ses données dans 5 ans si elle en a besoin.
Enfin, elle met l’accent sur la nécessité d’être honnête et transparent : « I’d rather be considered a honest idiot, than have everyone wonder if I’m untrustworthy ».
Pour aller plus loin : What to do when you don’t trust your data anymore. Article du blog Laskowski Lab at UC Davis comprenant notamment des captures d’écran des anomalies sur les données.


