Reutilización del Conocimiento Meta en el Aprendizaje por Refuerzo
Un nuevo marco aprende conocimiento a nivel de tarea en un agente simplificado y lo transfiere a agentes heterogéneos. Utiliza priors no paramétricos bayesianos y una política de alto nivel para generar guía de tareas, con una interfaz de magnitud semántica y un adaptador temporal para alinear el conocimiento meta con controladores específicos de la encarnación. Los experimentos muestran una reducción del 94.75% al 99.79% en el error de seguimiento del paso final y un rendimiento comparable utilizando el 23.8% de los datos de interacción de los métodos más avanzados.