Quelle place pour les données humaines dans la science ouverte ? Un équilibre fragile entre protection de la vie privée, souveraineté et partage des données

[Version anglaise accessible ici : « How do human data fit in open science? A delicate balance between privacy, sovereignty, and data sharing »]

Fin avril 2026, UK Biobank, la plus grande banque de données de santé anglaise, a subi une fuite importante : les données de santé de 500 000 volontaires se sont retrouvées en vente sur le site web Alibaba. La direction de UK Biobank a immédiatement fait retirer l’annonce, en collaboration avec Alibaba et le gouvernement chinois. Elle a ensuite temporairement fermé l’accès à UK Biobank et ajouté de nouvelles restrictions pour les 20 000 chercheur·se·s (mon laboratoire actuel y compris) qui l’utilisent dans le cadre de leurs recherches quotidiennes.

La fuite a fait la une des journaux, mais elle n’est pas la première : Luc Rocher, professeur·e associé·e et investigateur·ice principal.e du Synthetic Society Lab à l’Université d’Oxford, a constaté une augmentation des fuites de données de UK Biobank sur Github depuis août 2025. Jusqu’à présent, ces fuites semblaient être le résultat d’erreurs dues au manque d’expertise plutôt que d’actes malveillants (un étudiant en master à l’Université de Yale a par exemple tout partagé sur son Github par erreur). Si deux chercheur·se·s anglais·es en économie, Elizabeth Green et Felix Ritchie, suggèrent de former les scientifiques à la gestion des données sensibles, d’autres, comme le chercheur chinois Shenglong Li, défendent l’adoption d’un suivi en temps réel de l’utilisation des données, avec des peines sévères en cas de mauvaise conduite, afin d’empêcher cette situation de se reproduire. Certain·e·s remettent même en question la place des données sensibles, notamment génétiques, dans la science ouverte en général.

Lors de la suspension de l’accès à UK Biobank, un News Feature de Nature Medicine a relaté le renforcement de la « souveraineté des données » au détriment de la science ouverte. La souveraineté des données désigne le contrôle des données comme ressources par les nations, avec un accès très limité pour les chercheur·se·s étrangers·ères. Si cette idée semble aller à l’encontre des initiatives internationales en faveur de la science ouverte, Jingyuan Fu, professeure à l’université de Groningen aux Pays-Bas, suggère qu’elle est due à l’inégalité actuelle dans le partage des données. Elle donne son propre exemple : pendant 30 ans, son laboratoire a construit une base de données de microbiomes de 167 000 personnes (transcriptomiques, protéomiques, cellulaires, etc.). Ce travail, qui a nécessité des millions d’euros de financement public, est désormais accessible et utilisé par des pays qui ne partagent pas des données similaires. À l’ère de l’IA, cet échange inégal désavantage les pays qui soutiennent les politiques d’accès ouvert, car ils génèrent des données qui sont intégrées à des bases de données fermées d’autres pays. Cela permet de créer des modèles plus puissants et performants grâce à un entraînement sur des données plus diverses.

Le partage inégal des données semble avoir un effet domino qui conduit à des politiques de science fermée : en 2019, la Chine a désigné les données génétiques humaines comme des « ressources stratégiques », ce qui a engendré des restrictions strictes sur leur partage. En avril 2025, le National Institutes of Health (NIH) aux États-Unis a fermé l’accès à 21 bases de données à des chercheur·se·s chinois·e·s et d’autres « pays préoccupants ». En décembre 2025, l’Union européenne a décidé d’exclure les partenaires chinois de certains financements Horizon Europe, notamment dans le domaine de l’intelligence artificielle. Dans l’article de Nature Medicine et un World View de Nature, des chercheur·se·s européen·ne·s ainsi que chinois·e·s expriment leur inquiétude quant au fait que les politiques empêchant l’échange de données risqueraient de diminuer la puissance statistique, et donc l’efficacité, des recherches en santé. À long terme, ces politiques coûteraient plus cher, car elles conduiraient à la multiplication d’études nationales pour parvenir aux mêmes conclusions. Elles risqueraient également d’augmenter les biais dans les bases de données et les modèles d’IA, en raison d’un manque de diversité.

D’un autre côté, les citoyen·ne·s peuvent attendre de l’État et des organisations de recherche qu’ils protègent leur vie privée et leurs données de santé. Cette protection est d’autant plus importante si le partage de ces données avec des puissances étrangères ou le risque de fuite n’ont pas été explicitement discutés avec les volontaires lors du recueil du consentement. Un article récent critique justement la création d’une base de données génétiques canadienne qui demande aux participants de signer des accords de partage, sans définir les projets envisagés. À l’instar de UK Biobank, cette base devrait servir de ressource majeure pour les études en santé dans le pays. Mais comment concilier l’ouverture de la science avec le consentement essentiel des participants, alors qu’il est impossible d’imaginer toutes les études à venir ?

Dans des contextes post-coloniaux comme au Canada, les questions de consentement et de souveraineté des données sont encore plus complexes. Pour pouvoir servir toute la population, ces bases ont besoin d’une diversité génétique maximale. Cependant, en donnant leur ADN, les peuples autochtones craignent d’être à nouveau exploités et discriminés, sans pouvoir jouer un rôle dans la recherche (nous vous parlions ici de la science participative). En réponse, un mouvement croissant vise à permettre aux populations autochtones de gérer et de contrôler leurs données souveraines à l’échelle de leur communauté, et non à l’échelle de la « nation ».

Personnellement, je suis biaisée par mon sujet de recherche (la génétique humaine des troubles du neurodéveloppement) : je reste convaincue que l’étude et le partage des données génétiques sont essentiels pour mieux comprendre nos risques et nos résiliences individuels face à toutes sortes de maladies, qu’elles soient infectieuses ou génétiques. Ces connaissances nous permettront ensuite d’accompagner au mieux chacun·e dans le cadre d’une médecine de plus en plus personnalisée. Cela dit, il est également de notre devoir de veiller à ce que les mesures de protection et d’anonymisation soient respectées. J’espère sincèrement que nous continuerons à améliorer la gestion et la protection des bases de données de santé, afin de favoriser le partage des données essentiel pour les avancées scientifiques à venir.

Caitlin Martin, postdoctorante à l’Institut Pasteur

Références :

Webster P. Who owns my health data? Nat Med. 2026 Jun 1;32(6):1942–5. doi:10.1038/s41591-026-04378-7
Li S. UK Biobank breach prompts the field of genomics to rethink open science. Nature. 2026 May 12;653(8114):642–642. doi:10.1038/d41586-026-01520-w
Xu S. Open data is key to genomics research — if the information can be kept safe. Nature. 2026 May 12;653(8114):332–332. doi:10.1038/d41586-026-01475-y
Su R, Quinn P. Comparing and contrasting the definitions of genetic data in Chinese and EU law. Int Data Priv Law. 2026 Jun 1;16(2):ipaf036. doi:10.1093/idpl/ipaf036
Kolopenuk J, Smith RWA. Indigenous sovereignty and the limits of the Canadian Precision Health Initiative. Nat Commun. 2026 Mar 25;17(1):2956. doi:10.1038/s41467-026-71192-7

Partager :

En savoir plus sur Open science : évolutions, enjeux et pratiques