Une postdoc vous raconte

Construir un verdadero ecosistema de Open Data en salud: desafíos y perspectivas en América Latina

[Version espagnole de l’article « Construire un véritable écosystème d’Open Data en santé : défis et perspectives en Amérique latine »]

Las ciencias biomédicas generan hoy en día cantidades enormes de datos complejos y costosos. Sin embargo, gran parte de esa información sigue sin aprovecharse. Estados Unidos y Europa han implementado políticas de Open Data para asegurar que los recursos públicos se conviertan en conocimiento accesible y útil, siguiendo los principios de la UNESCO. Desafortunadamente, entre la teoría y la práctica persiste una brecha incómoda: la noción de datos disponibles “bajo solicitud razonable” suele no tomarse en serio, pues acceder a un conjunto de datos, incluso totalmente anonimizados, sigue siendo un proceso frustrante. En 2022, un estudio mostró que el 93% de los autores contactados no compartió los datos que supuestamente estaban “disponibles”.

No obstante, cuando los datos realmente son accesibles, los resultados pueden ser transformadores. Al inicio de la pandemia de COVID-19, investigadora(e)s en Brasil identificaron elementos clave en pacientes con comorbilidades utilizando únicamente datos públicos disponibles, demostrando que la apertura puede acelerar descubrimientos y generar conocimiento útil.

En América Latina existe talento científico, pero la falta de infraestructura limita enormemente su potencial. Un estudio reciente, llevado a cabo en cuatro universidades de Cuba, Perú y Bolivia, reveló que el 61% de los datos cuantitativos generados en proyectos de investigación terminan almacenados en computadoras personales; apenas alrededor del 30% se guarda en servidores institucionales. Peor aún, más de la mitad de las personas encuestadas declaró haber perdido datos al menos una vez. Muchas reconocen tener poco conocimiento sobre normativas éticas o legales, especialmente cuando trabajan con datos sensibles, y señalan que las infraestructuras institucionales para preservar, compartir o reutilizar datos son insuficientes o incluso inexistentes.

En lo personal, este estudio me recordó mi experiencia en México durante mi maestría (por ahí del 2016): no recuerdo que existiera algún tipo de repositorio institucional en “la nube” donde pudiéramos almacenar los datos de nuestros proyectos. Casi siempre guardábamos la información en nuestras computadoras personales o, en el mejor de los casos, en servicios externos como Dropbox, gestionados por nosotros mismos. No sé si la situación habrá cambiado después de casi una década, pero sinceramente espero que la infraestructura haya mejorado y que la práctica de gestión de datos se haya profesionalizado.

Esta reflexión nos recuerda que hacer accesibles los datos no depende solo de políticas globales o buenas intenciones: requiere que la(o)s investigadora(e)s cuenten con infraestructura confiable, apoyo institucional, conocimiento legal y una cultura de gestión responsable. Si no se corrigen estas carencias estructurales, muchos datos seguirán perdiéndose, siendo vulnerables o inaccesibles, y con ellos, posibles descubrimientos, colaboraciones y avances científicos se quedarán en el camino.

El panorama que acabo de describir sobre la gestión de datos en diversas universidades latinoamericanas permite plantear otra pregunta: si para la(o)s investigadora(e)s ya es complicado conservar y asegurar sus propios datos, ¿con qué recursos cuentan para compartirlos y ponerlos a disposición de la comunidad científica? En otras palabras: ¿los conjuntos de datos generados por la investigación en América Latina son realmente abiertos y reutilizables?

Para responder a esta carencia estructural, se realizó un metaanálisis: dado que la mayoría de las bases de datos públicas en salud provienen de países de ingresos altos, realmente sabemos muy poco acerca de lo que está disponible en América Latina. El objetivo del estudio fue crear un mapa de los conjuntos de datos abiertos en salud en la región: cuántos existen, de qué países provienen, qué modalidades y formatos utilizan y en qué medida son efectivamente accesibles y reutilizables.

Lo(a)s autore(a)s analizaron publicaciones entre 2006 y 2023 para identificar los conjuntos de datos de salud de la población latinoamericana que están disponibles en acceso abierto. De más de 700 publicaciones iniciales, se seleccionaron 141 estudios, de los cuales se extrajo información sobre el origen, tipo, formato y accesibilidad de los datos.

Los resultados son reveladores: se identificaron 61 conjuntos de datos públicos provenientes de 23 países. Aunque la cifra pueda sonar prometedora, la distribución y naturaleza de esos datos muestran grandes limitaciones. La mayoría de los trabajos provienen de bases de datos bien establecidas, en especial DATASUS en Brasil. En cambio, son muy pocas las investigaciones que generaron y compartieron sus propios datos: de los 141 artículos analizados, solo 23 crearon nuevos conjuntos de datos abiertos.

En cuanto a la naturaleza de los datos, el predominio es claro: el 88.7% de los estudios usa datos tabulares (información epidemiológica, demográfica o de salud pública). Los datos más complejos, como imágenes médicas, datos genómicos, textos clínicos o historiales médicos, son muy escasos.

Este panorama tiene implicaciones importantes. El hecho de que la mayoría de los datos abiertos de salud en América Latina provenga casi exclusivamente de Brasil, y que además sean datos principalmente agregados, limita mucho la representatividad regional. Los modelos o estudios basados en ellos difícilmente reflejarán la diversidad epidemiológica, social, genética o clínica de toda la región. Lo(a)s autore(a)s subrayan que, con los datos disponibles actualmente, muchas preguntas esenciales, como la variabilidad clínica según el país, las particularidades locales o las desigualdades en salud, simplemente no pueden responderse.

Además, el estudio recuerda que no basta con tener datos: lo importante es que estén bien documentados, que sean accesibles y que estén preparados para ser reutilizados (siguiendo los principios FAIR, que buscan que los datos sean localizables, accesibles, interoperables y reutilizables). Sin estándares comunes, sin metadatos sólidos y sin repositorios confiables, incluso los datos “abiertos” pueden quedar en el olvido.

Finalmente, y este es, en mi opinión, uno de los puntos más importantes, lo(a)s autore(a)s hacen un llamado a la acción. Recomiendan invertir en infraestructura, desarrollar políticas institucionales de Open Data, crear repositorios permanentes, implementar protocolos de anonimización y gobernanza ética, y generar incentivos reales para compartir datos. Porque una ciencia verdaderamente abierta requiere mucho más que “solicitudes razonables”: necesita sistemas claros, metadatos completos y un verdadero compromiso con poner la información a disposición. Cada conjunto de datos accesible es una oportunidad para plantear nuevas preguntas, fortalecer la investigación y construir un ecosistema científico más sólido, equitativo y realmente representativo de América Latina.

María Gutiérrez Sánchez, investigadora postdoctoral en el Institut Pasteur