GeneBench-Pro adalah benchmark tingkat penelitian yang dirancang untuk mengukur bagaimana agen AI menangani ambiguitas dan membuat penilaian konsekuensial dalam biologi komputasi, dengan memperluas dari GeneBench asli. Ini mengatasi keterbatasan evaluasi saat ini dengan menguji kemampuan tingkat tinggi seperti menangani noise data, merevisi asumsi, dan menentukan kapan hasil siap untuk pengambilan keputusan.

  • Benchmark ini terdiri dari 129 pertanyaan yang dihasilkan secara sintetis mencakup genomik, biologi kuantitatif, dan kedokteran translasi, memastikan penilaian deterministik terhadap struktur kausal yang diketahui.
  • Setiap masalah menyediakan dataset realistis dengan masalah teknis, mengharuskan agen untuk mengeksplorasi data, memilih pendekatan analitis, dan terlibat dalam eksperimen iteratif.
  • Ahli domain eksternal meninjau masalah-masalah tersebut untuk realisme dan kesesuaian, mencatat bahwa mereka cukup menantang sehingga memerlukan analisis mendalam daripada penerapan sederhana metode siap pakai.
  • GPT-5.6 Sol mencapai tingkat kelulusan 28,7% pada tingkat penalaran tertinggi, dengan kinerja meningkat menjadi 31,5% saat mode Pro diaktifkan.
  • Hasil menunjukkan bahwa penskalaan komputasi saat pengujian secara signifikan meningkatkan kinerja, dengan GPT-5.6 Sol menyelesaikan hampir enam kali lebih banyak pertanyaan dibandingkan GPT-5.2 sambil menggunakan token lebih sedikit.

Benchmark ini menyoroti kesenjangan yang semakin besar antara model frontier dan sistem open-source dalam penalaran ilmiah tingkat tinggi di bawah ketidakpastian, menunjukkan bahwa bantuan AI dapat meningkatkan kecepatan dan reproduktibilitas penelitian biologi.