Обучение процессным вознаграждениям через сопоставление посещений состояний для эффективного RL

Авторы предлагают метод преобразования изначально разреженных вознаграждений за результат в обучении с подкреплением (RL) в плотные процессные вознаграждения путем обучения дискриминатора для различения успешных и неуспешных эпизодов. Этот подход стимулирует политику совпадать с посещениями состояний-действий успешных эпизод, избегая при этом посещений неуспешных, обеспечивая плотную обратную связь по прогрессу без изменения оптимальной политики.

Метод использует дискриминатор для различения предыдущих успешных и неуспешных эпизодов.
Он стимулирует политику RL совпадать с посещениями состояний-действий успешных эпизодов.
Подход обеспечивает плотную обратную связь по прогрессу в достижении цели задачи.
Доказано, что он достигает этой цели без изменения оптимальной политики.
Продемонстрирована более быстрая производительность дообучения RL на задачах манипуляции роботами в симуляциях и реальном мире.

Эта техника решает сложную проблему распределения кредита в условиях разреженных вознаграждений, что приводит к значительно более быстрому улучшению политик управления роботами.