PACT combina una política de RL reactiva con un Modelo de Lenguaje Pequeño (SLM) de 2B parámetros para generar y validar planes de acción. El plan SLM se ejecuta directamente si se verifica como seguro, factible y completo, omitiendo la política de RL. PACT supera a las líneas base en tres entornos FrozenLake de dificultad creciente.
PACT: Deliberación de Modelos de Lenguaje Pequeños para Aprendizaje por Refuerzo Reactivo
Traducido del English → Español