O artigo apresenta o EvoPolicyGym, um benchmark projetado para avaliar como os agentes melhoram iterativamente políticas executáveis por meio de feedback dentro de um orçamento de interação fixo. Esse ambiente controlado aborda as limitações das avaliações existentes que frequentemente reduzem o processo a pontuações finais ou o confundem com o progresso da engenharia de software.

  • O benchmark utiliza ambientes compactos de aprendizado por reforço interativo para avaliar a melhoria iterativa de políticas.
  • O GPT-5.5 alcança a maior pontuação agregada e desempenho entre os dois primeiros em todos os 16 ambientes do conjunto.
  • O EvoPolicyGym fornece diagnósticos em nível de trajetória para analisar como os agentes distribuem seu orçamento e convertem feedback em ajuste paramétrico.

Os autores argumentam que uma evolução autônoma eficaz de políticas requer descobrir mecanismos adequados à tarefa e refinar as políticas sob feedback limitado, em vez de depender de vitórias isoladas em tarefas.