تقدم المقالة EvoPolicyGym، وهو معيار مصمم لتقييم كيفية تحسين الوكلاء للسياسات القابلة للتنفيذ بشكل تكراري من خلال التغذية الراجعة ضمن ميزانية تفاعل ثابتة. يعالج هذا الإعداد الخاضع للرقابة قيود التقييمات الحالية التي غالباً ما تختزل العملية في درجات نهائية أو تخلطها مع تقدم هندسة البرمجيات.

  • يستخدم المعيار بيئات تعلم التعزيز التفاعلية المدمجة لتقييم التحسين التكراري للسياسات.
  • يحقق GPT-5.5 أقوى درجة ترتيب إجمالية وأداء ضمن المراكز الأولى عبر جميع البيئات الست عشرة في المجموعة.
  • يوفر EvoPolicyGym تشخيصات على مستوى المسارات لتحليل كيفية تخصيص الوكلاء لميزانيتهم وتحويل التغذية الراجعة إلى ضبط للمعاملات.

يجادل المؤلفون بأن التطور الفعال للسياسات ذاتياً يتطلب اكتشاف آليات مناسبة للمهمة وتحسين السياسات تحت تغذية راجعة محدودة بدلاً من الاعتماد على انتصارات مهام معزولة.