Авторы предлагают метод преобразования изначально разреженных вознаграждений за результат в обучении с подкреплением (RL) в плотные процессные вознаграждения путем обучения дискриминатора для различения успешных и неуспешных эпизодов. Этот подход стимулирует политику совпадать с посещениями состояний-действий успешных эпизод, избегая при этом посещений неуспешных, обеспечивая плотную обратную связь по прогрессу без изменения оптимальной политики.

  • Метод использует дискриминатор для различения предыдущих успешных и неуспешных эпизодов.
  • Он стимулирует политику RL совпадать с посещениями состояний-действий успешных эпизодов.
  • Подход обеспечивает плотную обратную связь по прогрессу в достижении цели задачи.
  • Доказано, что он достигает этой цели без изменения оптимальной политики.
  • Продемонстрирована более быстрая производительность дообучения RL на задачах манипуляции роботами в симуляциях и реальном мире.

Эта техника решает сложную проблему распределения кредита в условиях разреженных вознаграждений, что приводит к значительно более быстрому улучшению политик управления роботами.