PACT: Deliberación de modelos de lenguaje pequeños para aprendizaje por refuerzo reactivo
PACT combina una política de RL reactiva con un Modelo de Lenguaje Pequeño (SLM) de 2B parámetros para generar y validar planes de acción. El plan del SLM se ejecuta directamente si se verifica en simulación, omitiendo la política de RL sin necesidad de reentrenamiento. PACT supera a las líneas base en tres entornos FrozenLake de dificultad creciente.