Обратное обучение Q: Новый алгоритм офф-полицейского обучения
Обратное обучение Q (RQL) — это новый алгоритм офф-полицейского обучения, который обучает политику потока с использованием предварительных данных. Моделируя шаги уточнения потока как действия в расширенном процессе марковской решений и применяя виртуальные офф-полицейские траектории через обратное преобразование, RQL обеспечивает эффективное обучение без обратного распространения во времени. Эксперименты по 50 роботизированным задачам показывают, что RQL достигает наилучшей средней производительности среди современных методов офф-полицейского обучения на основе потока.