Select-to-Act: Aprendizaje por refuerzo jerárquico mediante guía de lenguaje adaptativa

El artículo presenta HRLLI, un marco de aprendizaje por refuerzo jerárquico diseñado para mejorar la eficiencia de muestreo aprovechando instrucciones en lenguaje natural. Aborda la limitación de los enfoques existentes que tratan las instrucciones como entradas estáticas, sin tener en cuenta su relevancia dependiente del etapa en entornos complejos. El método propuesto descompone las instrucciones en elementos de guía por tramos que se vuelven relevantes en diferentes etapas de interacción. Se formula un nuevo paradigma Select-to-Act donde una política semántica de alto nivel actúa como selector para la pieza de instrucción más relevante basada en el estado actual. Esta guía seleccionada condiciona una política de bajo nivel que ejecuta las acciones del entorno, con ambas políticas aprendidas simultáneamente para maximizar los retornos esperados aumentados. Los experimentos en la benchmark RTFM demuestran que HRLLI supera consistentemente a las bases fuertes de RL condicionado por instrucciones. Los resultados confirman que modelar explícitamente la selección adaptativa de instrucciones mejora significativamente la efectividad del aprendizaje por refuerzo.