HRLLI introduce un marco de aprendizaje por refuerzo jerárquico que adapta dinámicamente las instrucciones en lenguaje natural durante la toma de decisiones. Descompone las instrucciones en elementos de guía específicos para cada etapa y utiliza un paradigma select-to-act para permitir la selección en tiempo real de partes relevantes de la instrucción, mejorando la eficiencia de muestras y el rendimiento en entornos complejos.
Select-to-Act: RL jerárquico con guía de lenguaje adaptativa
Traducido del English → Español