Un análisis teórico muestra que el grado off-policy, determinado por los pasos de gradiente por rollout, impacta significativamente las razones de muestreo de importancia y la dominancia de actualización de tokens. El estudio introduce Adaptive Clip Policy Optimization (ACPO), que ajusta los límites de recorte mediante la varianza del grupo de tokens, superando a DAPO y CISPO en modelos de 3B y 7B en tareas de razonamiento matemático, QA y lógico.
Factores clave en RL para el razonamiento de LLM revelados
Traducido del English → Español