El artículo presenta EvoPolicyGym, un benchmark diseñado para evaluar cómo los agentes mejoran iterativamente las políticas ejecutables mediante retroalimentación dentro de un presupuesto de interacción fijo. Este entorno controlado aborda las limitaciones de las evaluaciones existentes que a menudo colapsan el proceso en puntuaciones finales o lo confunden con el progreso de la ingeniería de software.
- El benchmark utiliza entornos compactos de aprendizaje por refuerzo interactivo para evaluar la mejora iterativa de políticas.
- GPT-5.5 logra la mejor puntuación agregada y el rendimiento entre los dos primeros en las 16 entornos del conjunto.
- EvoPolicyGym proporciona diagnósticos a nivel de trayectoria para analizar cómo los agentes distribuyen su presupuesto y convierten la retroalimentación en ajuste paramétrico.
Los autores argumentan que una evolución autónoma efectiva de políticas requiere descubrir mecanismos apropiados para la tarea y refinar las políticas bajo retroalimentación acotada, en lugar de depender de victorias aisladas en tareas.