Memperkenalkan GeneBench-Pro
GeneBench-Pro adalah benchmark tingkat penelitian yang dirancang untuk mengukur bagaimana agen AI menangani ambiguitas dan membuat penilaian konsekuensial dalam biologi komputasi, dengan memperluas dari GeneBench asli. Ini mengatasi keterbatasan evaluasi saat ini dengan menguji kemampuan tingkat tinggi seperti menangani noise data, merevisi asumsi, dan menentukan kapan hasil siap untuk pengambilan keputusan.