本記事では、エージェントが固定されたインタラクション予算内でフィードバックを通じて実行可能なポリシーを反復的に改善する方法を評価するために設計されたベンチマークであるEvoPolicyGymを紹介しています。この制御された設定は、既存の評価がプロセスを最終スコアに単純化したり、ソフトウェアエンジニアリングの進歩と混同したりするといった限界に対処します。
- このベンチマークは、コンパクトなインタラクティブ強化学習環境を利用して、反復的なポリシー改善を評価します。
- GPT-5.5は、スイート内の全16環境において最も強い集計ランクスコアと上位2位以内のパフォーマンスを達成しました。
- EvoPolicyGymは、エージェントが予算をどのように配分し、フィードバックをパラメータチューニングに変換するかを分析するためのトラジェクトリレベルの診断を提供します。
著者らは、効果的な自律的ポリシー進化には、孤立したタスクの勝利に依存するのではなく、タスクに適したメカニズムを発見し、制限されたフィードバックの下でポリシーを精緻化することが必要であると主張しています。