GeneBench-Pro هو معيار بحثي مصمم لقياس كيفية تعامل وكلاء الذكاء الاصطناعي مع الغموض واتخاذ أحكام ذات عواقب في علم الأحياء الحاسوبي، وهو توسيع للمعيار الأصلي GeneBench. ويتناول قيود التقييمات الحالية من خلال اختبار قدرات من رتبة أعلى مثل التعامل مع ضجيج البيانات، ومراجعة الافتراضات، وتحديد متى تكون النتائج جاهزة لاتخاذ القرار.

  • يتكون المعيار من 129 سؤالاً مولَّدة اصطناعياً تغطي علم الجينوم، وعلم الأحياء الكمي، والطب التحويلي، مما يضمن تصحيحاً حتمياً مقابل الهياكل السببية المعروفة.
  • يوفر كل مشكلة مجموعة بيانات واقعية تحتوي على مشكلات تقنية، مما يتطلب من الوكلاء استكشاف البيانات، واختيار النهج التحليلية، والانخراط في تجارب تكرارية.
  • راجع خبراء مجال خارجيون المشكلات من حيث الواقعية والملاءمة، مع ملاحظتهم بأنها صعبة بما يكفي لتتطلب تحليلاً مدروساً بدلاً من التطبيق البسيط لطرق جاهزة.
  • حقق GPT-5.6 Sol معدل نجاح بنسبة 28.7% في أعلى مستوى للتفكير، مع زيادة الأداء إلى 31.5% عند تفعيل وضع Pro.
  • تشير النتائج إلى أن توسيع الحوسبة أثناء الاختبار يحسّن الأداء بشكل كبير، حيث حلّ GPT-5.6 Sol عدد أسئلة يزيد عن ستة أضعاف ما حله GPT-5.2 بينما استخدم رموزاً أقل.

يُبرز المعيار الفجوة المتزايدة بين النماذج الحدودية والأنظمة مفتوحة المصدر في التفكير العلمي الرفيع المستوى تحت عدم اليقين، مما يشير إلى أن المساعدة بالذكاء الاصطناعي قد تحسّن وتيرة وأثر إعادة إنتاج الأبحاث البيولوجية.