EvoPolicyGym: Оценка автономной эволюции политик в интерактивных средах

В статье представлен EvoPolicyGym, бенчмарк, предназначенный для оценки того, как агенты итеративно улучшают исполняемые политики посредством обратной связи в рамках фиксированного бюджета взаимодействий. Эта контролируемая среда решает ограничения существующих оценок, которые часто сводят процесс к итоговым баллам или смешивают его с прогрессом в разработке программного обеспечения.

Бенчмарк использует компактные интерактивные среды обучения с подкреплением для оценки итеративного улучшения политик.
GPT-5.5 демонстрирует наивысший совокупный рейтинг и входит в топ-2 по производительности во всех 16 средах набора тестов.
EvoPolicyGym предоставляет диагностику на уровне траекторий для анализа того, как агенты распределяют свой бюджет и преобразуют обратную связь в параметрическую настройку.

Авторы утверждают, что эффективная автономная эволюция политик требует обнаружения механизмов, подходящих для задачи, и уточнения политик при ограниченной обратной связи, а не полагаться на изолированные победы в отдельных задачах.