本文介绍了 EvoPolicyGym,这是一个基准测试,旨在评估智能体如何在固定的交互预算内通过反馈迭代改进可执行策略。这种受控的设置解决了现有评估的局限性,后者通常将过程简化为最终得分,或将其与软件工程进展混淆。
- 该基准测试利用紧凑的交互式强化学习环境来评估策略的迭代改进。
- GPT-5.5 在套件中的全部 16 个环境中取得了最强的综合排名分数和前五名内的表现。
- EvoPolicyGym 提供轨迹级别的诊断,以分析智能体如何分配其预算并将反馈转化为参数调整。
作者认为,有效的自主策略演化需要发现适合任务的机制,并在有限的反馈下完善策略,而不是依赖于孤立的单一任务胜利。