L'article présente EvoPolicyGym, un benchmark conçu pour évaluer comment les agents améliorent itérativement des politiques exécutables grâce à des retours d'information dans le cadre d'un budget d'interaction fixe. Ce cadre contrôlé répond aux limites des évaluations existantes qui réduisent souvent le processus à des scores finaux ou le confondent avec les progrès de l'ingénierie logicielle.

  • Le benchmark utilise des environnements compacts d'apprentissage par renforcement interactif pour évaluer l'amélioration itérative des politiques.
  • GPT-5.5 obtient le meilleur score de rang agrégé et les deux premières performances sur les 16 environnements de la suite.
  • EvoPolicyGym fournit des diagnostics au niveau des trajectoires pour analyser comment les agents allouent leur budget et convertissent les retours d'information en réglage paramétrique.

Les auteurs soutiennent qu'une évolution autonome efficace des politiques nécessite de découvrir des mécanismes adaptés à la tâche et d'affiner les politiques sous un retour d'information borné, plutôt que de s'appuyer sur des victoires isolées dans des tâches spécifiques.