arxiv arXiv cs.AI · hace 1 h · fuente: hace 13 d · research

PACT: Deliberación de Modelos de Lenguaje Pequeños para Aprendizaje por Refuerzo Reactivo

Traducido del English → Español

PACT combina una política de RL reactiva con un Modelo de Lenguaje Pequeño (SLM) de 2B parámetros para generar y validar planes de acción. El plan SLM se ejecuta directamente si se verifica como seguro, factible y completo, omitiendo la política de RL. PACT supera a las líneas base en tres entornos FrozenLake de dificultad creciente.

Importancia 2/3 Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.AI OpenAI Google DeepMind Meta AI AI agents Reasoning models Training methods

Leer original