Gradientes de Política Analíticos para Control Eficiente en Muestra y Aprendizaje

Los Gradientes de Política Analíticos (APG) permiten el cálculo exacto de gradientes mediante retropropagación a través de la simulación cuando las dinámicas del entorno son diferenciables. APG supera a Proximal Policy Optimization (PPO) en cuatro tareas de control continuo, mostrando una eficiencia superior en muestra y aprendizaje con un esquema de retropropagación segmentada que reduce la degradación del gradiente en tareas de horizonte largo.