OPID: Destilación de habilidades on-policy para aprendizaje por refuerzo agéntico
Los autores proponen OPID, un marco que extrae supervisión de habilidades directamente de trayectorias on-policy completadas para abordar el problema de recompensa escasa en el aprendizaje por refuerzo basado en resultados. Al representar la retrospectiva de la trayectoria como habilidades jerárquicas, OPID proporciona supervisión token a nivel denso y coincidente con la distribución sin depender de memoria externa.