본 기사는 EvoPolicyGym을 소개합니다. 이는 에이전트가 고정된 상호작용 예산 내에서 피드백을 통해 실행 가능한 정책을 반복적으로 개선하는 방식을 평가하기 위해 설계된 벤치마크입니다. 이 통제된 설정은 기존 평가가 종종 과정을 최종 점수로 축소하거나 소프트웨어 엔지니어링의 진전과 혼동한다는 한계를 해결합니다.
- 이 벤치마크는 컴팩트한 상호작용 강화학습 환경을 활용하여 반복적 정책 개선을 평가합니다.
- GPT-5.5는 전체 16개 환경에서 가장 강력한 집계 순위 점수와 상위 두 가지 성능을 달성했습니다.
- EvoPolicyGym은 에이전트가 예산을 어떻게 할당하고 피드백을 매개변수 튜닝으로 전환하는지 분석하기 위한 궤적 수준의 진단을 제공합니다.
저자들은 효과적인 자율 정책 진화를 위해서는 고립된 작업 승리에 의존하기보다는 작업에 적합한 메커니즘을 발견하고 제한된 피드백 하에서 정책을 정제해야 한다고 주장합니다.