REVES introduce un marco iterativo de dos etapas que mejora el razonamiento de los LLM mediante revisión y verificación secuenciales. Logra +6.5 puntos sobre las líneas base de RL y +4.0 puntos sobre el entrenamiento estándar multi-turno en LiveCodeBench, utilizando un modelo base de 4B con menos rollouts que los sistemas evolutivos grandes. El método mejora la corrección de errores y se generaliza a acertijos fuera de distribución como n_queens y mini_sudoku.