arxiv arXiv cs.LG · hace 2 h · fuente: hace 11 d · research

REVES: Entrenamiento aumentado para escalado en tiempo de prueba

Traducido del English → Español

REVES introduce un marco iterativo de dos etapas que mejora el razonamiento de los LLM mediante revisión y verificación secuenciales. Logra +6.5 puntos sobre las líneas base de RL y +4.0 puntos sobre el entrenamiento estándar multi-turno en LiveCodeBench, utilizando un modelo base de 4B con menos rollouts que los sistemas evolutivos grandes. El método mejora la corrección de errores y se generaliza a acertijos fuera de distribución como n_queens y mini_sudoku.

Importancia 3/3 Supera un benchmark de un laboratorio puntero Nueva función frente a los líderes arXiv cs.LG OpenAI Google DeepMind Meta AI Code generation Reasoning models Training methods

Benchmarks

Benchmark	Modelo	Puntuación
LiveCodeBench	REVES	6.5pts

Leer original