¿Cómo valorar si un modelo de IA está preparado para dedicarse a la ciencia?

×
×
¿Estás seguro que deseas eliminar este contenido de tus favoritos?

12 MAR 2026

¿Cómo valorar si un modelo de IA está preparado para dedicarse a la ciencia?

 

El desarrollo de modelos más avanzados de inteligencia artificial (IA), especialmente los denominados agentes de IA —sistemas que actúan de forma independiente para realizar tareas en múltiples etapas— es visto a menudo como un paso adelante hacia herramientas capaces de realizar investigación científica de forma autónoma o casi. ¿Pero cómo se puede evaluar dicha capacidad?
Un reportaje en la revista Science pone el acento en el desarrollo de múltiples benchmarks o pruebas de referencia para analizar si una IA está preparada para dedicarse a la ciencia. Se trata de conjuntos de preguntas o tareas que permiten puntuar el rendimiento de los modelos y comparar entre ellos.
El trabajo pone de relieve tanto las ventajas como las debilidades de varios de estos test, como el Humanity’s Last Exam, uno de los más populares. Dicha prueba incorpora 2.500 preguntas muy especializadas de distintas disciplinas, pero algunos críticos argumentan que demostrar conocimientos altamente específicos no implica poseer una capacidad real para realizar descubrimientos.
 
 
Los resultados de los test pueden servir para mejorar los modelos
 
 
La noticia menciona otras benchmarks, como FrontierScience o Scientific Discovery Evaluation (SDE), diseñadas para evaluar específicamente las capacidades de razonamiento científico de la IA. Los resultados con la SDE muestran que los modelos que responden correctamente a preguntas individuales no siempre tienen un buen rendimiento en proyectos de investigación completos, y viceversa.
Más allá de la capacidad de razonamiento científico, LABBench2 se ha desarrollado para testear si los agentes de IA podrían llevar a cabo una investigación en biología desde la idea inicial hasta la publicación de los resultados. Esta prueba ha revelado dificultades a la hora de cruzar o interpretar datos, por lo que sería necesario mejorar el modo en que estas herramientas recuperan la información.
Teniendo en cuenta las complejidades del proceso científico, el artículo apunta que disponer de distintas pruebas de referencia no solo es útil para realizar comparaciones entre modelos de IA, sino que también puede indicar el camino a seguir para mejorarlos y que se conviertan en herramientas útiles para la investigación.
Referencia
Zhao C. How will we know if AI is smart enough to do science?. Science. Published online February 27, 2026. doi:10.1126/science.znoj7w3
OAD-ES-AMG-0001
 

×
Proceso de indentificación vía OWA
Estamos validando tus datos, en las próximas 48h el equipo de OWA (One Key authentication) se pondrá en conctacto contigo para finalizar el proceso de registro.
×
Necesitamos validar tus credenciales:
Para poder validar tus datos mediante OWA, necesitamos que modifiques tus datos haciendo clic AQUÍ
¡Muchas gracias!