Apresentando o GeneBench-Pro

O GeneBench-Pro é um benchmark de nível de pesquisa projetado para medir como agentes de IA lidam com ambiguidade e tomam decisões impactantes em biologia computacional, expandindo o GeneBench original. Ele aborda a limitação das avaliações atuais ao testar capacidades de ordem superior, como lidar com ruído nos dados, revisar suposições e determinar quando os resultados estão prontos para decisão.

O benchmark consiste em 129 perguntas geradas sinteticamente cobrindo genômica, biologia quantitativa e medicina translacional, garantindo avaliação determinística contra estruturas causais conhecidas.
Cada problema fornece um conjunto de dados realista com problemas técnicos, exigindo que os agentes explorem os dados, escolham abordagens analíticas e se envolvam em experimentação iterativa.
Especialistas externos do domínio revisaram os problemas quanto à realismo e adequabilidade, observando que eles são desafiadores o suficiente para exigir análise cuidadosa em vez da simples aplicação de métodos prontos.
O GPT-5.6 Sol alcançou uma taxa de aprovação de 28,7% no nível mais alto de raciocínio, com o desempenho aumentando para 31,5% quando o modo Pro é ativado.
Os resultados indicam que escalar o compute em tempo de teste melhora significativamente o desempenho, com o GPT-5.6 Sol resolvendo quase seis vezes mais perguntas que o GPT-5.2 enquanto usa menos tokens.

O benchmark destaca a lacuna crescente entre modelos de fronteira e sistemas de código aberto no raciocínio científico de alto nível sob incerteza, sugerindo que a assistência de IA pode melhorar o ritmo e a reprodutibilidade da pesquisa biológica.