Filtrado de tokens negativos para RL estable de un solo rollout

Un nuevo enfoque llamado filtrado de tokens negativos permite un entrenamiento estable de un solo rollout al evitar penalizaciones falsas en muestras negativas. El método mejora el rendimiento en tareas agénticas en comparación con las técnicas de RL basadas en grupos, mientras iguala a los métodos basados en grupos en tareas de razonamiento.