El artículo presenta LatentRevise, un método de revisión latente de primer orden diseñado para recuperar señales de entrenamiento en aprendizaje por refuerzo con recompensas verificables (RLVR) para prompts donde las trayectorias correctas se muestrean raramente. Al optimizar los embeddings de entrada de un prefijo de razonamiento basándose en rollouts fallidos y respuestas doradas, el método genera datos útiles a partir de intentos previamente improductivos.
- LatentRevise optimiza los embeddings de entrada de un prefijo de razonamiento utilizando dos gradientes complementarios para alejarse de las continuaciones fallidas y acercarse a la respuesta dorada.
- Las actualizaciones se restringen al casco convexo de los embeddings del vocabulario del modelo, asegurando que las modificaciones se alineen con los embeddings reales de tokens en lugar de direcciones de características arbitrarias.
- Las continuaciones generadas a partir de prefijos revisados exhiben autorreflexión, se alargan en duración y alcanzan exitosamente respuestas correctas que los rollouts originales no lograron.
- El uso de estas trayectorias revisadas como datos de entrenamiento mejora el ajuste fino supervisado (SFT) y el rendimiento de RLVR en benchmarks matemáticos en comparación con las líneas base estándar.
Este enfoque aborda el cuello de botella de los prompts difíciles en RLVR convirtiendo los rollouts fallidos en señales de entrenamiento informativas, mejorando así las capacidades de razonamiento del modelo en tareas matemáticas.