Аналитические градиенты политик для эффективного непрерывного управления
Аналитические градиенты политик (APG) обеспечивают точное вычисление градиентов с помощью обратного распространения через симуляцию при дифференцируемых динамических характеристиках среды. APG превосходит Проxимую политическую оптимизацию (PPO) на четырех задачах непрерывного управления, демонстрируя превосходную эффективность по образцам и обучению, благодаря сегментированной схеме обратного распространения, которая снижает деградацию градиентов на задачах с длинными горизонтами.