EvoPolicyGym：评估交互式环境中自主策略的演化

本文介绍了 EvoPolicyGym，这是一个基准测试，旨在评估智能体如何在固定的交互预算内通过反馈迭代改进可执行策略。这种受控的设置解决了现有评估的局限性，后者通常将过程简化为最终得分，或将其与软件工程进展混淆。

作者认为，有效的自主策略演化需要发现适合任务的机制，并在有限的反馈下完善策略，而不是依赖于孤立的单一任务胜利。