Обучение процессным наградам через сопоставление частоты посещения состояний для эффективного обучения с подкреплением

Авторы решают задачу обучения политик обучения с подкреплением (RL) при наличии изначально разреженных наград за результат, что приводит к сложным проблемам распределения ответственности. Они предлагают метод преобразования этих разреженных наград в плотные процессные награды путем обучения дискриминатора для различения успешных и неуспешных эпизодов. Этот дискриминатор стимулирует политику совпадать с частотой посещения состояний-действий успешных эпизодов, избегая при этом тех, что характерны для неуспешных. Предоставляя плотную обратную связь о прогрессе в выполнении задачи, подход доказуемо достигает этой цели без изменения оптимальной политики. Метод специально применяется к дообучению политик управления роботами для задач манипуляции. Экспериментальные результаты демонстрируют значительно более быстрое выполнение этапа дообучения RL как в симулированных, так и в реальных средах по сравнению с простой максимизацией разреженных наград за результат.