GeneBench-Pro는 원래 GeneBench를 확장하여 AI 에이전트가 계산 생물학에서 불확실성을 어떻게 처리하고 중요한 판단을 내리는지를 측정하기 위해 설계된 연구 수준 벤치마크입니다. 이는 데이터 노이즈 처리, 가정 수정, 결과가 결정 가능한 상태인지 판별하는 것과 같은 고차원 능력을 테스트함으로써 현재 평가의 한계를 극복합니다.

  • 이 벤치마크는 유전체학, 정량 생물학, 번역 의학을 아우르는 129개의 합성 생성 질문으로 구성되며, 알려진 인과 구조에 대해 결정론적인 채점을 보장합니다.
  • 각 문제는 기술적 문제를 포함한 현실적인 데이터 세트를 제공하며, 에이전트가 데이터를 탐색하고 분석 접근 방식을 선택하며 반복적인 실험에 참여하도록 요구합니다.
  • 외부 도메인 전문가들이 문제의 현실성과 적절성을 검토했으며, 이들은 단순한 오프더 shelf 방법 적용이 아닌 신중한 분석을 필요로 할 만큼 충분히 도전적이라고 평가했습니다.
  • GPT-5.6 Sol은 최고 추론 수준에서 28.7%의 통과율을 기록했으며, Pro 모드를 활성화하면 성능이 31.5%로 향상됩니다.
  • 결과는 테스트 타임 컴퓨팅 확장성이 성능을 크게 향상시킨다는 것을 보여주며, GPT-5.6 Sol은 더 적은 토큰을 사용하면서 GPT-5.2보다 거의 6배 많은 문제를 해결했습니다.

이 벤치마크는 불확실성 하의 고급 과학적 추론에서 최전선 모델과 오픈소스 시스템 간의 격차가 커지고 있음을 강조하며, AI 보조가 생물학 연구의 속도와 재현성을 향상시킬 수 있음을 시사합니다.