Gradientes de Política Analíticos para el Control Continuo Eficiente

Los Gradientes de Política Analíticos (APG) permiten el cálculo exacto de gradientes mediante retropropagación a través de la simulación cuando las dinámicas del entorno son diferenciables. APG supera a la Optimización de Política Próxima (PPO) en cuatro tareas de control continuo, mostrando una eficiencia superior de muestras y aprendizaje con un esquema de retropropagación segmentada que reduce la degradación de gradientes en tareas de horizonte largo.