OPID: Дистилляция навыков on-policy для агентного обучения с подкреплением
Авторы предлагают OPID — фреймворк, который извлекает надзор по навыкам непосредственно из завершенных траекторий on-policy для решения проблемы разреженных наград в обучении с подкреплением, ориентированном на результат. Представляя ретроспективу траектории в виде иерархических навыков, OPID обеспечивает плотный надзор на уровне токенов с согласованным распределением без опоры на внешнюю память.