GeneBench-Pro 是一项面向研究级别的基准测试,旨在衡量 AI 智能体在计算生物学中如何处理不确定性并做出关键性判断,这是对原始 GeneBench 的扩展。它通过测试更高级别的能力(如处理数据噪声、修正假设以及判断结果是否达到决策就绪状态)来克服当前评估方法的局限性。

  • 该基准测试包含 129 个合成生成的问题,涵盖基因组学、定量生物学和转化医学领域,确保针对已知因果结构进行确定性评分。
  • 每个问题都提供带有技术缺陷的真实数据集,要求智能体探索数据、选择分析方法并参与迭代实验。
  • 外部领域专家对问题的真实性和适用性进行了审查,指出这些问题具有足够的挑战性,需要进行深思熟虑的分析,而非简单套用现成方法。
  • GPT-5.6 Sol 在最高推理层级取得了 28.7% 的通过率,当启用 Pro 模式时,性能提升至 31.5%。
  • 结果表明,扩展测试时计算量可显著提升性能,GPT-5.6 Sol 使用的 token 数少于 GPT-5.2,但解决的问题数量接近其六倍。

该基准测试凸显了前沿模型与开源系统在不确定性下的高级科学推理能力之间日益扩大的差距,表明 AI 辅助有望提高生物研究的进展速度和可重复性。