Los resultados de un estudio liderado por investigadores de la Icahn School of Medicine de los hospitales Mount Sinai (EE. UU.) ponen de relieve que las herramientas de
inteligencia artificial (IA) generativa pueden proporcionar recomendaciones sesgadas en función de características sociodemográficas del paciente.
Publicado en Nature Medicine, el trabajo consistió en poner a prueba nueve grandes modelos de lenguaje (LLM, por las siglas en inglés) con 1.000 casos clínicos de servicio de urgencias (500 reales y 500 simulados). Cada caso se expuso a los LLM con 32 variaciones: 31 de carácter sociodemográfico y un control sin identificadores sociodemográficos. En ningún caso se alteraron los detalles clínicos.
Tras analizar más de 1,7 millones de respuestas ofrecidas por los distintos modelos de IA, los investigadores observaron que, en ocasiones, los LLM alteraban sus respuestas en función de identificadores sociodemográficos, como el nivel socioeconómico, la etnicidad o la diversidad sexual, lo que afectaba a aspectos clave para el manejo, como la prioridad en el triaje, la realización de pruebas diagnósticas o el enfoque terapéutico.
Los casos de ingresos altos recibieron más recomendaciones de pruebas de imagen avanzadas
Por ejemplo, los casos etiquetados como de ingresos altos recibieron significativamente un mayor número de recomendaciones para realizar pruebas de imagen avanzadas, como tomografías computarizadas o resonancias magnéticas. En cambio, aquellos casos etiquetados como de ingresos bajos recibieron con mayor frecuencia recomendaciones de pruebas básicas, con menor petición de pruebas adicionales.
A tenor de que estas variaciones en las recomendaciones de los LLM no podían achacarse a criterios clínicos, los autores apuntan que pueden reflejar sesgos promovidos por los propios modelos, lo que de aplicarse en la práctica habitual podría dar lugar a inequidades importantes.
Por todo ello, los investigadores resaltan que son necesarias
estrategias para evaluar y mitigar la aparición de sesgos en la IA con aplicaciones médicas, con objeto de garantizar que sean
herramientas fiables e imparciales. En este sentido, consideran que identificar dónde se producen estos sesgos permite avanzar hacia el desarrollo de modelos que contribuyan de forma segura y efectiva en la mejora de la atención sanitaria para todos los pacientes.
Referencia
Omar M, Soffer S, Agbareia R, et al. Sociodemographic biases in medical decision making by large language models.
Nat Med. Published online April 7, 2025.
doi:10.1038/s41591-025-03626-6
OAD-ES-AMG-0001