La edición dinámica de rollout (DRE) aborda el sobreanálisis en modelos de razonamiento entrenados con RL modificando trayectorias exitosas tras la aparición de la respuesta. DRE preserva el prefijo de razonamiento correcto mientras edita la continuación innecesaria, debilitando el crédito asignado al pensamiento redundante sin penalizar el razonamiento válido. Los experimentos en diversas tareas demuestran su efectividad para reducir el sobreanálisis.