В статье представлен EvoPolicyGym, бенчмарк, предназначенный для оценки того, как агенты итеративно улучшают исполняемые политики посредством обратной связи в рамках фиксированного бюджета взаимодействий. Эта контролируемая среда решает ограничения существующих оценок, которые часто сводят процесс к итоговым баллам или смешивают его с прогрессом в разработке программного обеспечения.
- Бенчмарк использует компактные интерактивные среды обучения с подкреплением для оценки итеративного улучшения политик.
- GPT-5.5 демонстрирует наивысший совокупный рейтинг и входит в топ-2 по производительности во всех 16 средах набора тестов.
- EvoPolicyGym предоставляет диагностику на уровне траекторий для анализа того, как агенты распределяют свой бюджет и преобразуют обратную связь в параметрическую настройку.
Авторы утверждают, что эффективная автономная эволюция политик требует обнаружения механизмов, подходящих для задачи, и уточнения политик при ограниченной обратной связи, а не полагаться на изолированные победы в отдельных задачах.