Los modelos de IA avanzados no alcanzan el razonamiento clínico de los médicos

×
×
¿Estás seguro que deseas eliminar este contenido de tus favoritos?

04 DIC 2025

Los modelos de IA avanzados no alcanzan el razonamiento clínico de los médicos

 

En los últimos años, las posibilidades de la inteligencia artificial (IA) en la salud han dado un paso de gigante, con aplicaciones en el diagnóstico por la imagen, la búsqueda de patrones en datos de salud y la toma de notas clínicas durante las visitas, entre otras.
Y es que los grandes modelos de lenguaje (LLM, por las siglas en inglés) han demostrado habilidad para superar exámenes médicos de tipo test. Pero no está claro cómo de bien se desenvuelven en términos de razonamiento clínico, especialmente a la hora de adaptarse a información cambiante en la evaluación de un caso.
Investigadores internacionales recurrieron al test de concordancia de guion o script concordance testing (SCT) —un método para evaluar la flexibilidad en el razonamiento clínico de los estudiantes de medicina— para poner a prueba diez LLM, algunos de los cuales desarrollados como modelos razonamiento.
 
 
Los modelos de IA fueron ineficaces para identificar cuándo los nuevos datos eran irrelevantes
 
 
En base a conjuntos de datos internacionales de distintas especialidades médicas, los autores crearon una herramienta con 750 SCT, cada uno de los cuales con una situación o viñeta clínica en que nuevos datos pueden alterar el diagnóstico y el plan de tratamiento. El rendimiento de los diez LLM a la hora de resolver estas viñetas se comparó con el de un millar de estudiantes de medicina, 193 residentes y 300 médicos.
Los resultados revelan que, en general, los modelos de IA avanzados obtuvieron rendimientos similares a los de estudiantes de primer o segundo año, pero no alcanzaron el nivel de residentes y médicos experimentados. Y es que alrededor de un 30% de la nueva información proporcionada en los SCT no alteraba el diagnóstico. Sin embargo, los LLM fueron muy ineficaces a la hora de averiguarlo, e intentaban encajar estos datos irrelevantes en su resultado final.
Según los autores, el estudio pone de relieve las limitaciones de la IA en el razonamiento clínico, incluso entre aquellos modelos optimizados para el razonamiento explícito. Y consideran que la herramienta desarrollada, disponible públicamente, puede servir como complemento para evaluar nuevos modelos de IA de aplicación en la atención sanitaria.
Referencia
McCoy LG, Swamy R, Sagar N, et al. Assessment of Large Language Models in Clinical Reasoning: A Novel Benchmarking Study. NEJM AI. 2025;2(10):10.1056/AIdbp2500120. doi:10.1056/AIdbp2500120
OAD-ES-AMG-0001
 

×
Proceso de indentificación vía OWA
Estamos validando tus datos, en las próximas 48h el equipo de OWA (One Key authentication) se pondrá en conctacto contigo para finalizar el proceso de registro.
×
Necesitamos validar tus credenciales:
Para poder validar tus datos mediante OWA, necesitamos que modifiques tus datos haciendo clic AQUÍ
¡Muchas gracias!