Y es que los grandes modelos de lenguaje (LLM, por las siglas en inglés) han demostrado habilidad para superar exámenes médicos de tipo test. Pero no está claro cómo de bien se desenvuelven en términos de razonamiento clínico, especialmente a la hora de adaptarse a información cambiante en la evaluación de un caso.
Investigadores internacionales recurrieron al test de concordancia de guion o script concordance testing (SCT) —un método para evaluar la flexibilidad en el razonamiento clínico de los estudiantes de medicina— para poner a prueba diez LLM, algunos de los cuales desarrollados como modelos razonamiento.
Los modelos de IA fueron ineficaces para identificar cuándo los nuevos datos eran irrelevantes
En base a conjuntos de datos internacionales de distintas especialidades médicas, los autores crearon una herramienta con 750 SCT, cada uno de los cuales con una situación o viñeta clínica en que nuevos datos pueden alterar el diagnóstico y el plan de tratamiento. El rendimiento de los diez LLM a la hora de resolver estas viñetas se comparó con el de un millar de estudiantes de medicina, 193 residentes y 300 médicos.
Los resultados revelan que, en general, los modelos de IA avanzados obtuvieron rendimientos similares a los de estudiantes de primer o segundo año, pero no alcanzaron el nivel de residentes y médicos experimentados. Y es que alrededor de un 30% de la nueva información proporcionada en los SCT no alteraba el diagnóstico. Sin embargo, los LLM fueron muy ineficaces a la hora de averiguarlo, e intentaban encajar estos datos irrelevantes en su resultado final.
Referencia
McCoy LG, Swamy R, Sagar N, et al. Assessment of Large Language Models in Clinical Reasoning: A Novel Benchmarking Study. NEJM AI. 2025;2(10):10.1056/AIdbp2500120.
doi:10.1056/AIdbp2500120
OAD-ES-AMG-0001