arxiv arXiv cs.CL · hace 2 h · fuente: hace 10 d · research

La edición dinámica de rollout reduce el sobreanálisis en modelos de razonamiento entrenados con RL

Traducido del English → Español

La edición dinámica de rollout (DRE) aborda el sobreanálisis en modelos de razonamiento entrenados con RL modificando trayectorias exitosas tras la aparición de la respuesta. DRE preserva el prefijo de razonamiento correcto mientras edita la continuación innecesaria, debilitando el crédito asignado al pensamiento redundante sin penalizar el razonamiento válido. Los experimentos en diversas tareas demuestran su efectividad para reducir el sobreanálisis.

Importancia 3/3 Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.CL OpenAI Google DeepMind Meta AI Evaluation & benchmarks Reasoning models Training methods

Leer original