GeneBench-Proは、AIエージェントが計算生物学において曖昧さに対処し、重要な判断を下す能力を測定するために設計された研究レベルのベンチマークであり、元のGeneBenchを拡張したものです。これは、データノイズへの対応、仮定の修正、結果が意思決定に準備できているかどうかの判定といった高次な能力をテストすることで、現在の評価の限界に対処します。
- このベンチマークは、ゲノミクス、定量的生物学、トランスレーショナル・メディシンをカバーする129の合成生成された質問で構成されており、既知の因果構造に対して決定論的な採点を保証します。
- 各問題には技術的な課題を含む現実的なデータセットが提供され、エージェントにデータの探索、分析アプローチの選択、反復的な実験への参加を要求します。
- 外部のドメイン専門家が、これらの問題がリアルタイム性と適切性を備えていることをレビューし、それらが単なる既製手法の適用ではなく、深思熟考を要する分析を必要とするほど挑戦的であると指摘しました。
- GPT-5.6 Solは、最高レベルの推論において28.7%のパス率を達成し、Proモードを有効にすると性能が31.5%に向上しました。
- 結果は、テスト時の計算リソースを拡張することがパフォーマンスを大幅に向上させることを示しており、GPT-5.6 SolはGPT-5.2よりも少ないトークン数で約6倍の質問を解決しています。
このベンチマークは、不確実性下での高度な科学的推論において、フロンティアモデルとオープンソースシステムとの間に広がりつつある格差を浮き彫りにしており、AI支援が生物学的研究のペースと再現性を向上させる可能性を示唆しています。