O GeneBench-Pro é um benchmark de nível de pesquisa projetado para medir como agentes de IA lidam com ambiguidade e tomam decisões impactantes em biologia computacional, expandindo o GeneBench original. Ele aborda a limitação das avaliações atuais ao testar capacidades de ordem superior, como lidar com ruído nos dados, revisar suposições e determinar quando os resultados estão prontos para decisão.

  • O benchmark consiste em 129 perguntas geradas sinteticamente cobrindo genômica, biologia quantitativa e medicina translacional, garantindo avaliação determinística contra estruturas causais conhecidas.
  • Cada problema fornece um conjunto de dados realista com problemas técnicos, exigindo que os agentes explorem os dados, escolham abordagens analíticas e se envolvam em experimentação iterativa.
  • Especialistas externos do domínio revisaram os problemas quanto à realismo e adequabilidade, observando que eles são desafiadores o suficiente para exigir análise cuidadosa em vez da simples aplicação de métodos prontos.
  • O GPT-5.6 Sol alcançou uma taxa de aprovação de 28,7% no nível mais alto de raciocínio, com o desempenho aumentando para 31,5% quando o modo Pro é ativado.
  • Os resultados indicam que escalar o compute em tempo de teste melhora significativamente o desempenho, com o GPT-5.6 Sol resolvendo quase seis vezes mais perguntas que o GPT-5.2 enquanto usa menos tokens.

O benchmark destaca a lacuna crescente entre modelos de fronteira e sistemas de código aberto no raciocínio científico de alto nível sob incerteza, sugerindo que a assistência de IA pode melhorar o ritmo e a reprodutibilidade da pesquisa biológica.