La IA generativa flaquea en el análisis de datos hospitalarios estructurados

×
×
¿Estás seguro que deseas eliminar este contenido de tus favoritos?

14 MAY 2026

La IA generativa flaquea en el análisis de datos hospitalarios estructurados

 

Las historias clínicas electrónicas (HCE) son herramientas esenciales en la atención, pero también para la gestión hospitalaria. La agrupación y estructuración de los datos de HCE permite, por ejemplo, extraer información valiosa para la planificación operativa y el uso eficiente de recursos. Sin embargo, a menudo son necesarias técnicas de análisis de datos para obtener dicha información, lo que puede ocasionar retrasos y limitar su acceso.
Los grandes modelos de lenguaje (LLM, por las siglas en inglés) podrían analizar estos datos estructurados y facilitar la extracción de información relevante usando el lenguaje natural. Con el objetivo de validar esta hipótesis, investigadores estadounidenses pusieron a prueba nueve de estos modelos de inteligencia artificial (IA) con datos reales de 50.000 visitas a urgencias del sistema de salud Mount Sinai.
Los datos se estructuraron en tablas y en diversas combinaciones de tamaños. Se pidió a los LLM que realizaran dos tareas básicas —contar registros y filtrar pacientes en base a distintos criterios— mediante tres estrategias de prompting: petición simple directa, cadena de razonamiento —en que se pide al modelo que muestre los pasos para llegar a la respuesta— o generación y ejecución de código para llevar a cabo las tareas.
 
 
Las peticiones directas obtuvieron malos rendimientos en todos los modelos
 
 
Publicados en PLOS Digital Health, los resultados mostraron que las peticiones directas, como, por ejemplo, preguntar a la IA cuántos pacientes de la tabla fueron ingresados, arrojaron malos rendimientos en todos los modelos. La precisión mejoró con el prompting por cadena de razonamiento para conjuntos pequeños de datos, pero empeoró a medida que aumentaba el tamaño de la tabla.
Finalmente, la estrategia de pedir a la IA que genere y ejecute código —Python en este caso— para realizar las tareas mejoró sustancialmente la precisión de modelos potentes, como GPT-4o o Qwen-2.5 72B, pero otros continuaron teniendo dificultades incluso con este tipo de prompting basado en herramientas.
A raíz de estos resultados, los autores destacan que los LLM disponibles no son adecuados directamente para para realizar tareas sencillas en base a datos de HCE, y concluyen que para garantizar cierta precisión es necesario apostar por combinar la IA con la ejecución de código.
Fuente: Medical Xpress.
Referencia Klang E, Sorin V, Korfiatis P, et al. Large language models are poor clinical administrators: An evaluation of structured queries in real-world electronic health records. PLOS Digit Health. 2026;5(5):e0001326. Published 2026 May 7. doi:10.1371/journal.pdig.0001326
OAD-ES-AMG-0001
 

×
Proceso de indentificación vía OWA
Estamos validando tus datos, en las próximas 48h el equipo de OWA (One Key authentication) se pondrá en conctacto contigo para finalizar el proceso de registro.
×
Necesitamos validar tus credenciales:
Para poder validar tus datos mediante OWA, necesitamos que modifiques tus datos haciendo clic AQUÍ
¡Muchas gracias!