Авторы предлагают метод преобразования изначально разреженных вознаграждений за результат в обучении с подкреплением (RL) в плотные процессные вознаграждения путем обучения дискриминатора для различения успешных и неуспешных эпизодов. Этот подход стимулирует политику совпадать с посещениями состояний-действий успешных эпизод, избегая при этом посещений неуспешных, обеспечивая плотную обратную связь по прогрессу без изменения оптимальной политики.
- Метод использует дискриминатор для различения предыдущих успешных и неуспешных эпизодов.
- Он стимулирует политику RL совпадать с посещениями состояний-действий успешных эпизодов.
- Подход обеспечивает плотную обратную связь по прогрессу в достижении цели задачи.
- Доказано, что он достигает этой цели без изменения оптимальной политики.
- Продемонстрирована более быстрая производительность дообучения RL на задачах манипуляции роботами в симуляциях и реальном мире.
Эта техника решает сложную проблему распределения кредита в условиях разреженных вознаграждений, что приводит к значительно более быстрому улучшению политик управления роботами.