En las últimas décadas, la disponibilidad de nuevos tratamientos para el mieloma múltiple de nuevo diagnóstico (MMND) ha crecido considerablemente. Por otro lado, el auge de la inteligencia artificial (IA) podría ser de utilidad a la hora de
orientar el manejo de la enfermedad en base a las guías de práctica clínica.
En este sentido, especialistas madrileños llevaron a cabo un estudio para analizar si seis chatbots de IA (GPT-4o, Gemini 1.5 Flash y Pro, Copilot, OpenEvidence y Claude 3.5 Sonnet) podrían facilitar recomendaciones precisas para el tratamiento del MMND en base a las guías.
Para ello, los investigadores crearon plantillas de peticiones con diferentes descripciones diagnósticas, y compararon la concordancia de los resultados ofrecidos por los distintos chatbots con dos guías de 2021: la de la National Comprehensive Cancer Network (NCCN, EE. UU.) y la del Grupo Español de Mieloma (GEM, Sociedad Española de Hematología y Hemoterapia). Los resultados de han publicado en Leukemia.
Los modelos de IA mezclaban con frecuencia respuestas correctas e incorrectas
Tres hematólogos y un residente se encargaron de revisar 336 respuestas proporcionadas por los distintos chatbots, y alcanzaron acuerdo en el 72% de las evaluaciones realizadas. Entre los distintos modelos, los mejores datos de concordancia fueron para GPT-4o (con una media del 80% para todas las peticiones), seguido de OpenEvidence (70%) y Claude 3.5 Sonnet (62,5%).
No se observaron grandes diferencias en la concordancia de las respuestas de los chatbots con las dos guías comparativas, con un 61,5% para la de la NCCN y un 63% para la del GEM. Entre los problemas detectados, se destaca que, con frecuencia, los modelos mezclaban respuestas correctas e incorrectas, y que, en ocasiones, se citaban referencias que no se correspondían con los resultados proporcionados.
A tenor de los resultados, los autores destacan que los chatbots de IA no ofrecen recomendaciones precisas y, por tanto, no son fuentes fiables de información sobre el tratamiento del MMND. Consideran necesario que tanto clínicos como pacientes sean conscientes de las limitaciones que presentan estas herramientas, por lo que recomiendan ser prudentes a la hora de utilizarlas.
Referencia
Suárez EU, Torres-Saavedra F, Domingo-González A, Cardete J, Llamas-Sillero P. How well do different chatbots respond to multiple myeloma treatment guidelines?.
Leukemia. Published online April 7, 2025.
doi:10.1038/s41375-025-02604-8
SC-ES-CP-00099