(Ro)Bot-Reviewing : quelle place pour l’IA dans l’évaluation de nos articles ?

[Version anglaise accessible ici : « (Ro)Bot Reviewers: what role might AI play in evaluating our research articles? »]

L’équipe de rédaction a le plaisir d’accueillir Caitlin Martin qui prend en charge pour cette année la rédaction des articles de la rubrique « Une postdoc vous raconte ». Elle se présente en quelques mots :

Bonjour ! Je suis Caitlin Martin, actuellement chercheuse postdoctorale dans l’équipe de Génétique Humaine et Fonctions Cognitives à l’Institut Pasteur. J’ai commencé ma carrière scientifique dans l’évolution des génomes, et plus spécifiquement, dans le domaine de la paléogénomique. Je suis Canadienne (de Toronto), et je suis ravie de reprendre le relais pour cette partie du blog de la science ouverte. Je considère la science ouverte comme essentielle pour un partage transparent des connaissances entre nous mais aussi avec le grand public.

IA et aide à la révision – beaucoup de buzz, mais quel intérêt pour les chercheur·se·s ? Cette pratique nous mènera-t-elle vers une science plus ouverte, ou vers un processus de révision encore plus opaque ?

Des rapports d’évaluation par les pairs (peer reviewing) plus pertinents, équitables, et transparents, c’est ce que promettent Niv Samuel Mastboim et Oded Rechavi, les créateurs de l’outil « q.e.d. ». Il s’agit d’une IA qui génère pour vous un rapport d’évaluation sur la base de votre manuscrit. Mastboim et Rechavi imaginent un monde dans lequel nous ferions d’abord réviser nos articles par cet outil, puis nous partagerions le rapport d’évaluation de façon transparente avec la communauté. Nous soumettrions ensuite nos articles aux journaux, qui les accepteraient en se basant sur ces rapports et nos corrections. Un jour, nous pourrions même tout faire en libre accès, en publiant nous-mêmes nos articles accompagnés de leurs rapports q.e.d., à la manière d’eLife.

Même si nous sommes encore loin de cette vision utopique de la science ouverte, Mastboim et Rechavi ne sont pas les seuls à imaginer l’IA jouer un rôle dans le processus de révision des articles. Ces derniers mois ont vu une explosion de ce type d’outils, peut-être parce que les chercheur·se·s utilisent de plus en plus l’IA pour faire leurs rapports d’évaluation. Un rapport récent de la maison d’édition Frontiers a révélé que plus de 50 % des 1 600 chercheur·se·s interrogé·e·s ont recours à l’IA pour effectuer leur reviewing :

29 % pour rédiger un résumé de l’article,
28 % pour détecter d’éventuelles pratiques douteuses,
19 % pour évaluer les méthodes et le contenu,
59 % pour rédiger leur lettre aux auteur·ice·s.

De manière globale, cette utilisation représente une augmentation de 24 % durant la dernière année.

Si les rapporteurs utilisent déjà l’IA pour effectuer leur travail, pourquoi ne pas créer et entraîner des outils spécialisés ? Pourquoi ne pas les mettre à la disposition des auteurs pour qu’ils évaluent leurs travaux et ciblent leurs points faibles avant que leurs articles ne soient évalués ? À l’heure actuelle, on peut trouver deux catégories différentes :

1. Des outils pour les éditeur·ice·s

Détection des textes générés par l’IA (ex. Geppetto de Springer Nature),
Détection des images manipulées (ex. SnappShot, aussi de Springer Nature),
Génération des rapports (e.g. Eliza).

2. Des outils pour les chercheur·se·s (pour améliorer leur article avant soumission)

Soit gratuits, développés par des entreprises (ex. Nature Research Assistant de Springer Nature) ou par des chercheur·se·s (ex. q.e.d. et l’expérimental Reviewer#2 développé en interne et accessible uniquement aux membres de l’Institut Pasteur),
Soit payants (ex. PaperWizard).

Mais ces outils, sont-ils vraiment utiles pour la rédaction de nos articles ? Pour avoir un premier avis, j’ai mené une petite enquête en comparant trois d’entre eux, dont deux encore en bêta (Nature Research Assistant et Reviewer#2 de l’Institut Pasteur), et le célèbre q.e.d.

Nature Research Assistant

Actuellement en phase de test, le « manuscript advisor » est un LLM développé par Stephanie Preuß, Niki Scaplehorn et Thomas van Dongen pour améliorer la qualité rédactionnelle des manuscrits. En conséquence, cet outil semble évaluer principalement l’écriture : sa fluidité, sa cohérence, et la pertinence des titres et conclusions. Il fait un sommaire du papier, génère des mots-clés et un résumé, et permet d’identifier certaines phrases qui sont trop alambiquées ou ambiguës. Cependant, il ne fournit aucune évaluation du contenu scientifique.

Reviewer#2

En revanche, Reviewer#2, qui se base sur la littérature publiée, est très fort pour identifier les points faibles de vos projets, avec un ton assez sévère ! Soyez courageux, j’ai l’impression qu’il rejettera tous nos articles. Sa force est dans son exhaustivité : il a correctement identifié des références supplémentaires (que je ne connaissais pas), et des arguments à développer. Néanmoins, il n’a pas pris en compte le fait que certains journaux restreignent la taille des articles, et il a omis d’autres informations présentes dans l’article qui répondaient déjà à plusieurs de ses critiques. Il a également demandé une série d’analyses assez coûteuses en temps, qui dépassent le cadre de l’article initial (en ce sens, il imite bien les rapporteurs humains).

q.e.d.

Revenons finalement à q.e.d. En contraste avec les outils fournis par des maisons d’édition ou des entreprises, cet outil a été développé par des chercheur·se·s de l’université de Tel Aviv. C’est un entre-deux qui, dans mes tests, a proposé des expériences pertinentes pour améliorer nos travaux, majoritairement faisables, et, comme Reviewer#2, en faisant référence à la littérature. En fin de compte, q.e.d. était le plus proche des vrais rapports de reviewing que nous avons reçus. En outre, il n’a rien suggéré que les rapporteurs humains n’avaient pas identifié, et il était tout aussi répétitif dans ses critiques que Reviewer#2.

Actuellement, les journaux n’acceptent pas nos articles seulement sur la base de changements effectués en réponse aux critiques d’une IA, ils exigent toujours une évaluation humaine. On peut donc se demander s’il y a un intérêt pour nous ? Je pense que les outils qui ciblent les problèmes de compréhension ou de clarté dans l’écriture sont les plus utiles avant de soumettre nos articles. Ceux comme Reviewer#2 ou q.e.d., en contraste, sont plus adaptés après la soumission, pour anticiper les demandes potentielles des rapporteur·se·s humain·e·s et commencer à réfléchir aux analyses supplémentaires. Si l’on essaie de répondre à toutes les critiques de q.e.d. avant de soumettre, je crains que l’on se retrouve avec encore plus de travail supplémentaire. Même si l’on réussit à satisfaire les évaluations IA, les rapporteur·se·s humain·e·s restent plus créatif·ve·s pour exiger des analyses ou des expériences supplémentaires qui n’existent pas encore dans la littérature publiée sur le sujet.

Revenons à ma question initiale : ces outils pourraient-ils nous aider à diminuer, voire à éliminer, les biais humains dans l’édition et la publication de nos articles ? Les biais provenant de conflit d’intérêt, ou de notoriété du dernier auteur·ice, ou même les biais de genre et ethniques peuvent certainement être diminués grâce à ces outils. Cependant, tant que nous ne connaissons pas les données utilisées pour entraîner ces outils, nous ne pouvons pas savoir dans quelle mesure ils ont déjà intégré certains biais, lesquels risquent de devenir plus difficiles à détecter.

Je ne pense pas qu’une nouvelle égalité ni une nouvelle transparence de l’évaluation des articles soient pour tout de suite, mais à mon avis, les rapports générés par q.e.d. pourraient intéresser des éditeurs comme complément aux révisions humaines. J’espère qu’avec le temps, le développement de q.e.d. et d’autres outils, permettra de rendre le processus de reviewing plus transparent, plus pertinent, et plus égalitaire, pour le bénéfice de toute la communauté scientifique.

Caitlin Martin, postdoctorante à l’Institut Pasteur

Références :

Frontiers Media, Unlocking AI’s untapped potential: responsible innovation in research and publishing (2025)
Tamara Welschot, AI in Research Integrity: Springer Nature’s Innovative Tools Geppetto and SnappShot, The Researcher’s Source (2024)
Flaminio Squazzoni et al., Peer review and gender bias: A study on 145 scholarly journals. Adv. 7, eabd0299 (2021)
Fengyuan Liu et al., Non-White scientists appear on fewer editorial boards, spend more time under review, and receive fewer citations, Proc. Natl. Acad. Sci. U.S.A. 120 (13) e2215324120 (2023).

Partager :

En savoir plus sur Open science : évolutions, enjeux et pratiques