El desarrollo de modelos más avanzados de inteligencia artificial (IA), especialmente los denominados agentes de IA —sistemas que actúan de forma independiente para realizar tareas en múltiples etapas— es visto a menudo como un paso adelante hacia herramientas capaces de
realizar investigación científica de forma autónoma o casi. ¿Pero cómo se puede evaluar dicha capacidad?
Un
reportaje en la revista Science pone el acento en el desarrollo de múltiples
benchmarks o pruebas de referencia para analizar si una IA está preparada para dedicarse a la ciencia. Se trata de conjuntos de preguntas o tareas que permiten puntuar el rendimiento de los modelos y comparar entre ellos.
El trabajo pone de relieve tanto las ventajas como las debilidades de varios de estos test, como el
Humanity’s Last Exam, uno de los más populares. Dicha prueba incorpora 2.500 preguntas muy especializadas de distintas disciplinas, pero algunos críticos argumentan que demostrar conocimientos altamente específicos no implica poseer una capacidad real para realizar descubrimientos.
Los resultados de los test pueden servir para mejorar los modelos
La noticia menciona otras
benchmarks, como
FrontierScience o
Scientific Discovery Evaluation (SDE), diseñadas para evaluar específicamente las capacidades de
razonamiento científico de la IA. Los resultados con la SDE muestran que los modelos que responden correctamente a preguntas individuales no siempre tienen un buen rendimiento en proyectos de investigación completos, y viceversa.
Más allá de la capacidad de razonamiento científico,
LABBench2 se ha desarrollado para testear si los agentes de IA podrían llevar a cabo una investigación en biología desde la idea inicial hasta la publicación de los resultados. Esta prueba ha revelado dificultades a la hora de cruzar o interpretar datos, por lo que sería necesario mejorar el modo en que estas herramientas recuperan la información.
Teniendo en cuenta las complejidades del proceso científico, el artículo apunta que disponer de distintas pruebas de referencia no solo es útil para realizar comparaciones entre modelos de IA, sino que también puede indicar el camino a seguir para mejorarlos y que se conviertan en herramientas útiles para la investigación.
Referencia
Zhao C. How will we know if AI is smart enough to do science?.
Science. Published online February 27, 2026.
doi:10.1126/science.znoj7w3
OAD-ES-AMG-0001