OPID: Destilación de habilidades on-policy para aprendizaje por refuerzo agéntico

Los autores proponen OPID, un marco que extrae supervisión de habilidades directamente de trayectorias on-policy completadas para abordar el problema de recompensa escasa en el aprendizaje por refuerzo basado en resultados. Al representar la retrospectiva de la trayectoria como habilidades jerárquicas, OPID proporciona supervisión token a nivel denso y coincidente con la distribución sin depender de memoria externa.

OPID captura flujos de trabajo globales mediante habilidades a nivel de episodio y conocimiento de decisión local mediante habilidades a nivel de paso.
Un mecanismo de enrutamiento crítico-inicial inyecta habilidades a nivel de paso para decisiones críticas o retrocede a la guía a nivel de episodio.
El método combina cambios en log-probabilidad de contextos aumentados con habilidades con ventajas de resultado para la optimización de políticas.
Los experimentos en ALFWorld, WebShop y QA basado en búsqueda muestran mejoras en rendimiento, eficiencia de muestras y robustez frente a líneas base.

Este enfoque preserva el aprendizaje por refuerzo como objetivo principal de entrenamiento mientras permite un aprendizaje más efectivo mediante supervisión retrospectiva densa.