Apresentando o GeneBench-Pro
O GeneBench-Pro é um benchmark de nível de pesquisa projetado para medir como agentes de IA lidam com ambiguidade e tomam decisões impactantes em biologia computacional, expandindo o GeneBench original. Ele aborda a limitação das avaliações atuais ao testar capacidades de ordem superior, como lidar com ruído nos dados, revisar suposições e determinar quando os resultados estão prontos para decisão.