El razonamiento clínico sigue siendo el talón de Aquiles de la IA generativa

Estás a punto de abandonar RED Amgen para conectarte a una fuente externa

RED Amgen no audita o controla el contenido de las fuentes externas. Asimismo, tampoco se hace responsable del contenido que encuentres en el siguiente enlace.

Aceptar y salir

Espacio Amgen

ACCEDE REGÍSTRATE

Actualidad

23 ABR 2026

El razonamiento clínico sigue siendo el talón de Aquiles de la IA generativa

Se está produciendo un auge en la comercialización de sistemas de inteligencia artificial (IA) para su uso en salud, pero la evidencia sobre la capacidad de razonamiento clínico de los distintos modelos es limitada. Y es que, a menudo, la IA se evalúa mediante test de respuestas múltiples, que no reflejan completamente la complejidad de la asistencia sanitaria.

Investigadores estadounidenses han desarrollado un marco para evaluar el razonamiento clínico de la IA a lo largo del proceso asistencial. Se trata del Proportional Index of Medical Evaluation for LLMs (PrIME-LLM), y mediante un sistema de puntuación analiza la precisión de los modelos en cinco dominios del razonamiento clínico, como el diagnóstico diferencial, el final y el manejo, entre otros.

Según describen en JAMA Network Open, PrIME-LLM se utilizó para valorar 21 grandes modelos de lenguaje (LLM, por las siglas en inglés) disponibles comercialmente, que se pusieron a prueba para diagnosticar 29 casos clínicos publicados. Para simular cómo los casos se desarrollan en realidad, los autores fueron proporcionando información a las distintas IA de forma paulatina, ofreciendo primero datos básicos, como edad, género y síntomas, hasta llegar a la información completa del caso.

Los modelos tuvieron tasas de fallo superiores al 80% en el diagnóstico diferencial

Los resultados muestran que, en general, los modelos optimizados para el razonamiento tuvieron un mejor rendimiento. De hecho, las puntuaciones de PrIME-LLM oscilaron entre el 64% para Gemini 1.5 Flash y el 78% para Grok 4 y GPT-5.

Globalmente, los LLM fueron precisos a la hora de realizar un diagnóstico final, pero solo cuando disponían de toda la información pertinente. En cambio, todas los modelos evaluados tuvieron tasas de fallo superiores al 80% en las fases iniciales del caso, en las que se dispone de poca información, siendo incapaces de producir un diagnóstico diferencial adecuado para seguir avanzando en la resolución del caso.

Los autores consideran que, a pesar de los avances en las capacidades de razonamiento, los LLM comerciales todavía no están a punto para su implementación segura, en la práctica clínica sin supervisión. El diagnóstico diferencial es clave en el razonamiento clínico, y los resultados obtenidos confirman que la IA todavía no consigue replicar dicho proceso.

Fuente: Mass General Brigham.

Referencia
Rao AS, Esmail KP, Lee RS, et al. Large Language Model Performance and Clinical Reasoning Tasks. JAMA Netw Open. 2026;9(4):e264003. Published 2026 Apr 1. doi:10.1001/jamanetworkopen.2026.4003

OAD-ES-AMG-0001

#Innovacion

#InteligenciaArtificial

#TecnologiaSalud

#CasosClinicos

Lo más leído

¿Por qué registrarse?

Un espacio específico para ti y tu especialidad
Tus contenidos favoritos
Acceso a toda la actualidad científica
Formación especializada
Soportes y herramientas prácticas
Acceso a tu Área privada
Información actualizada sobre los productos Amgen
Notifica sospechas de reacciones adversas

¿Ya tienes cuenta de OWA? ACCEDE AHORA

Para que te sea más fácil recordar tus datos de acceso a RED Amgen, utilizamos el servicio de autenticación segura OneKey Web Authentication (OWA), empleado por distintas páginas web sanitarias.

E-mail

Contraseña (mínimo 6 carácteres) pwd_visibility_icon

Confirmar contraseña

Apelativo

Nombre

Apellidos

Profesión

Campo obligatorio

Especialidad

Campo obligatorio

Código postal

Ciudad

País

Teléfono (introduce un número de teléfono válido)

El número telefónico compartido será utilizado única y exclusivamente para verificar que el usuario es profesional sanitario, no para fines comerciales.

He leído y acepto el aviso legal He leído y acepto el aviso legal

He leído y acepto la política de privacidad He leído y acepto la política de privacidad

Proceso de indentificación vía OWA

Estamos validando tus datos, en las próximas 48h el equipo de OWA (One Key authentication) se pondrá en conctacto contigo para finalizar el proceso de registro.

entendido

¡Gracias por registrarte!

Gracias por realizar el proceso de registro. Ya puedes acceder a todo el contenido de RED Amgen.

ACCEDE AHORA

Necesitamos validar tus credenciales:

Para poder validar tus datos mediante OWA, necesitamos que modifiques tus datos haciendo clic AQUÍ

¡Muchas gracias!

entendido

KRAS: un biomarcador clave en cáncer de pulmón no microcítico (CPNM)

La importancia de los biomarcadores en el manejo del CCRm

ONCONNECT: Conectando actualidad y formación en oncología

Cáncer de Pulmón: ¿Tienes un momento?

600 Segundos

El razonamiento clínico sigue siendo el talón de Aquiles de la IA generativa

Lo más leído

KRAS: un biomarcador clave en cáncer de pulmón no microcítico (CPNM)

La importancia de los biomarcadores en el manejo del CCRm

ONCONNECT: Conectando actualidad y formación en oncología

Cáncer de Pulmón: ¿Tienes un momento?

600 Segundos

El razonamiento clínico sigue siendo el talón de Aquiles de la IA generativa

Puede interesarte

¿Pueden los laboratorios robóticos con IA tomar las riendas de la investigación?

Aplicación de la IA en enfermería: aspectos generales a tener en cuenta

Uso de la IA entre los estudiantes de doctorado: ventajas y precauciones

Lo más leído

7.ª Edición del Manual Práctico de Hematología Clínica

Presentación de la Guía Práctica para la puesta en marcha de Unidades de Coordinación de Fracturas de Cadera en la Comunidad de Madrid

Espacio de Información Médica: Información científica y actualizada de nuestros medicamentos

SEMERGENVIVO: “Desmontando mitos en Osteoporosis: La importancia del médico de familia”

Acceso a RED Amgen

Restaurar contraseña