arxiv arXiv cs.CL · hace 1 h · fuente: hace 10 d · research

REVES: Entrenamiento aumentado para escalado en tiempo de prueba

Traducido del English → Español

REVES introduce un marco iterativo de dos etapas que mejora el razonamiento de los modelos de lenguaje grandes mediante revisión y verificación secuenciales. Logra +6.5 puntos sobre las líneas base de RL y +4.0 puntos sobre el entrenamiento estándar de múltiples turnos en LiveCodeBench, utilizando un modelo base de 4B con menos rollouts que sistemas más grandes. El método mejora la corrección de errores y se generaliza a rompecabezas fuera de distribución como n_queens y mini_sudoku.

Importancia 3/3 Supera un benchmark de un laboratorio puntero Nueva función frente a los líderes arXiv cs.CL OpenAI Google DeepMind Meta AI Code generation Reasoning models Training methods

Benchmarks

Benchmark	Modelo	Puntuación
LiveCodeBench	REVES	6.5pts

Leer original