Artikel ini memperkenalkan EvoPolicyGym, sebuah benchmark yang dirancang untuk mengevaluasi bagaimana agen secara iteratif meningkatkan kebijakan yang dapat dieksekusi melalui umpan balik dalam batas interaksi tetap. Pengaturan terkontrol ini mengatasi keterbatasan evaluasi yang ada yang sering kali meruntuhkan proses menjadi skor akhir atau mencampuradukkannya dengan kemajuan teknik perangkat lunak.

  • Benchmark ini memanfaatkan lingkungan pembelajaran penguatan interaktif yang ringkas untuk menilai peningkatan kebijakan secara iteratif.
  • GPT-5.5 mencapai skor peringkat agregat terkuat dan kinerja dua besar di seluruh 16 lingkungan dalam suite tersebut.
  • EvoPolicyGym menyediakan diagnostik tingkat trajektori untuk menganalisis bagaimana agen mengalokasikan anggaran mereka dan mengubah umpan balik menjadi penyetelan parametrik.

Para penulis berargumen bahwa evolusi kebijakan otomatis yang efektif memerlukan penemuan mekanisme yang sesuai dengan tugas dan penyempurnaan kebijakan di bawah umpan balik terbatas, bukan mengandalkan kemenangan tugas yang terisolasi.