SPIRAL: Aprender a buscar y agregar
Los autores presentan el Aprendizaje por Refuerzo Secuencial-Paralelo-Agregativo (SPIRAL), un marco que entrena modelos de lenguaje para utilizar simultáneamente primitivas de razonamiento secuencial, paralelo y agregativo. A diferencia de los métodos estándar de post-entrenamiento que optimizan únicamente para el razonamiento secuencial de una sola traza, SPIRAL unifica estos componentes en una única canalización de cómputo de inferencia. El modelo primero muestrea trazas independientes en paralelo utilizando razonamiento cadena-de-pensamiento y luego genera una traza de agregación final condicionada a esas entradas. Todo este proceso se optimiza de extremo a extremo contra la recompensa de la respuesta agregada final utilizando técnicas de aprendizaje por refuerzo basado en conjuntos y aprendizaje por refuerzo estándar. Los experimentos en tareas de razonamiento demuestran que SPIRAL escala efectivamente con los recursos de cómputo de inferencia. El enfoque supera a GRPO hasta 11 veces en eficiencia de escalado y logra un 15% más de rendimiento cuando se escalan las tres primitivas de cómputo.