Evaluation & benchmarks — korshunov.ai

الموضوع · Evaluation & benchmarks

إطلاق GeneBench-Pro

GeneBench-Pro هو معيار بحثي مصمم لقياس كيفية تعامل وكلاء الذكاء الاصطناعي مع الغموض واتخاذ أحكام ذات عواقب في علم الأحياء الحاسوبي، وهو توسيع للمعيار الأصلي GeneBench. ويتناول قيود التقييمات الحالية من خلال اختبار قدرات من رتبة أعلى مثل التعامل مع ضجيج البيانات، ومراجعة الافتراضات، وتحديد متى تكون النتائج جاهزة لاتخاذ القرار.

lab OpenAI News · منذ 3 ساعة

داخل GeneBench-Pro: 10 دراسات حالة للاستدلال الجينومي المعقد

يُعد GeneBench-Pro معيارًا مصممًا لتقييم النماذج في مهام الاستدلال الجينومي المعقد، ويضم عشر دراسات حالة مفصلة تعرض أسئلة تمثيلية ومواد داعمة. توفر كل دراسة الحالة الموجه الأصلي (prompt)، وبيانات المجموعات، والسياق اللازم لتقييم أداء النموذج على تحديات بيولوجية محددة.

lab OpenAI News · منذ 1 يوم

تخطيط فرصة سوق العمل الأوروبي في مجال الذكاء الاصطناعي

قامت أبحاث OpenAI الاقتصادية بتوسيع إطار انتقال وظائف الذكاء الاصطناعي إلى الاتحاد الأوروبي، مستخدمة تصنيف ESCO وبيانات اليوروستات لتحليل كيفية قدرة قدرات الذكاء الاصطناعي على إعادة تشكيل أسواق العمل عبر الدول الأعضاء.