Se está produciendo un auge en la comercialización de sistemas de inteligencia artificial (IA) para su
uso en salud, pero la evidencia sobre la capacidad de
razonamiento clínico de los distintos modelos es limitada. Y es que, a menudo, la IA se evalúa mediante test de respuestas múltiples, que no reflejan completamente la complejidad de la asistencia sanitaria.
Investigadores estadounidenses han desarrollado un marco para evaluar el razonamiento clínico de la IA a lo largo del proceso asistencial. Se trata del Proportional Index of Medical Evaluation for LLMs (PrIME-LLM), y mediante un sistema de puntuación analiza la precisión de los modelos en cinco dominios del razonamiento clínico, como el diagnóstico diferencial, el final y el manejo, entre otros.
Según describen en
JAMA Network Open, PrIME-LLM se utilizó para valorar 21 grandes modelos de lenguaje (LLM, por las siglas en inglés) disponibles comercialmente, que se pusieron a prueba para diagnosticar 29
casos clínicos publicados. Para simular cómo los casos se desarrollan en realidad, los autores fueron proporcionando información a las distintas IA de forma paulatina, ofreciendo primero datos básicos, como edad, género y síntomas, hasta llegar a la información completa del caso.
Los modelos tuvieron tasas de fallo superiores al 80% en el diagnóstico diferencial
Los resultados muestran que, en general, los modelos optimizados para el razonamiento tuvieron un mejor rendimiento. De hecho, las puntuaciones de PrIME-LLM oscilaron entre el 64% para Gemini 1.5 Flash y el 78% para Grok 4 y GPT-5.
Globalmente, los LLM fueron precisos a la hora de realizar un diagnóstico final, pero solo cuando disponían de toda la información pertinente. En cambio, todas los modelos evaluados tuvieron tasas de fallo superiores al 80% en las fases iniciales del caso, en las que se dispone de poca información, siendo incapaces de producir un diagnóstico diferencial adecuado para seguir avanzando en la resolución del caso.
Los autores consideran que, a pesar de los avances en las capacidades de razonamiento, los LLM comerciales todavía no están a punto para su
implementación segura, en la práctica clínica sin supervisión. El diagnóstico diferencial es clave en el razonamiento clínico, y los resultados obtenidos confirman que la IA todavía no consigue replicar dicho proceso.
Referencia
Rao AS, Esmail KP, Lee RS, et al. Large Language Model Performance and Clinical Reasoning Tasks.
JAMA Netw Open. 2026;9(4):e264003. Published 2026 Apr 1.
doi:10.1001/jamanetworkopen.2026.4003
OAD-ES-AMG-0001