Авторы предлагают OPID — фреймворк, который извлекает надзор по навыкам непосредственно из завершенных траекторий on-policy для решения проблемы разреженных наград в обучении с подкреплением, ориентированном на результат. Представляя ретроспективу траектории в виде иерархических навыков, OPID обеспечивает плотный надзор на уровне токенов с согласованным распределением без опоры на внешнюю память.

  • OPID захватывает глобальные рабочие процессы через навыки уровня эпизода и локальные знания принятия решений через навыки уровня шага.
  • Механизм маршрутизации критически важных первых шагов внедряет навыки уровня шага для критических решений или возвращается к руководству уровня эпизода.
  • Метод объединяет сдвиги логарифмических вероятностей из контекстов, обогащенных навыками, с преимуществами результата для оптимизации политики.
  • Эксперименты на ALFWorld, WebShop и поисковых QA показывают улучшение производительности, эффективности выборки и устойчивости по сравнению с базовыми методами.

Этот подход сохраняет обучение с подкреплением в качестве основной цели обучения, одновременно обеспечивая более эффективное обучение через плотный ретроспективный надзор.