GeneBench-Pro es una evaluación a nivel de investigación diseñada para medir cómo los agentes de IA manejan la ambigüedad y toman decisiones trascendentales en biología computacional, ampliando el GeneBench original. Aborda la limitación de las evaluaciones actuales al probar capacidades de orden superior como manejar ruido en los datos, revisar supuestos y determinar cuándo los resultados están listos para la toma de decisiones.

  • La evaluación consta de 129 preguntas generadas sintéticamente que cubren genómica, biología cuantitativa y medicina traslacional, garantizando una calificación determinista frente a estructuras causales conocidas.
  • Cada problema proporciona un conjunto de datos realista con problemas técnicos, requiriendo que los agentes exploren los datos, elijan enfoques analíticos y participen en experimentación iterativa.
  • Expertos externos del dominio revisaron los problemas por su realismo y adecuación, señalando que son lo suficientemente desafiantes como para requerir un análisis reflexivo en lugar de la simple aplicación de métodos genéricos.
  • GPT-5.6 Sol logró una tasa de aprobación del 28.7% en el nivel más alto de razonamiento, con un rendimiento que aumenta al 31.5% cuando se activa el modo Pro.
  • Los resultados indican que escalar el cómputo durante la prueba mejora significativamente el rendimiento, con GPT-5.6 Sol resolviendo casi seis veces más preguntas que GPT-5.2 mientras usaba menos tokens.

La evaluación destaca la creciente brecha entre los modelos de vanguardia y los sistemas de código abierto en el razonamiento científico de alto nivel bajo incertidumbre, sugiriendo que la asistencia de IA podría mejorar el ritmo y la reproducibilidad de la investigación biológica.