GeneBench-Pro एक शोध-स्तर का बेंचमार्क है जो कंप्यूटेशनल बायोलॉजी में AI एजेंट अस्पष्टता को कैसे संभालते हैं और निर्णायक निर्णय लेते हैं, इसका मापन करने के लिए डिज़ाइन किया गया है, जो मूल GeneBench का विस्तार करता है। यह वर्तमान मूल्यांकनों की सीमाओं को संबोधित करता है, उच्च-क्रम क्षमताओं जैसे डेटा शोर को संभालना, मान्यताओं को पुनः देखना और परिणाम निर्णय-के लिए तैयार हैं या नहीं, यह निर्धारित करने का परीक्षण करके।
- बेंचमार्क में जीनोमिक्स, मात्रात्मक बायोलॉजी और अनुवादक चिकित्सा को कवर करने वाले 129 सिंथेटिक रूप से उत्पन्न प्रश्न शामिल हैं, ज्ञात कारण संरचनाओं के खिलाफ निर्धारणात्मक ग्रेडिंग सुनिश्चित करते हुए।
- प्रत्येक समस्या में तकनीकी मुद्दों के साथ एक यथार्थवादी डेटासेट होता है, जिससे एजेंट्स को डेटा का अन्वेषण करना, विश्लेषणात्मक दृष्टिकोण चुनना और पुनरावृत्त प्रयोगशीलता में संलग्न होना आवश्यक होता है।
- बाहरी क्षेत्र विशेषज्ञों ने यथार्थवाद और उचितता के लिए समस्याओं की समीक्षा की, यह नोट करते हुए कि वे इतने चुनौतीपूर्ण हैं कि सोच-विश्लेषण की आवश्यकता होती है, न कि तैयार विधियों का सरल अनुप्रयोग।
- GPT-5.6 Sol ने उच्चतम तर्क स्तर पर 28.7% पास दर हासिल की, जब Pro मोड सक्षम होता है तो प्रदर्शन 31.5% तक बढ़ जाता है।
- परिणाम संकेत देते हैं कि टेस्ट-टाइम कंप्यूट को स्केल करने से प्रदर्शन में महत्वपूर्ण सुधार होता है, GPT-5.6 Sol ने GPT-5.2 की तुलना में लगभग छह गुना अधिक प्रश्न हल किए, कम टोकन का उपयोग करते हुए।
बेंचमार्क अनिश्चितता के तहत उच्च-स्तर के वैज्ञानिक तर्क में फ्रंटियर मॉडल्स और ओपन-सोर्स सिस्टम के बीच बढ़ते अंतर को उजागर करता है, यह सुझाव देते हुए कि AI सहायता जैविक अनुसंधान की गति और पुनरुत्पादकता में सुधार कर सकती है।