Enrutamiento de Rama Local: Escalado Eficiente y Entrenable en Tiempo de Prueba para Modelos de Lenguaje
Los autores presentan el Enrutamiento de Rama Local (LBR), un marco a nivel de token diseñado para mejorar el razonamiento de los modelos de lenguaje mediante escalado eficiente en tiempo de prueba. LBR expande un pequeño árbol de anticipación local y envía todas las ramas muestreadas a través del modelo, utilizando un enrutador ligero para seleccionar el subárbol de profundidad 1 para su compromiso. Este enfoque permite que cada decisión de token utilice evidencia de futuros locales candidatos sin incurrir en los costos computacionales de la búsqueda a nivel de solución completa. El método emplea un proceso de decodificación poda-crecimiento-crecimiento que preserva las identidades discretas de las ramas y define una verosimilitud de trayectoria de árbol tratable. En consecuencia, LBR permite el aprendizaje por refuerzo de extremo a extremo con recompensas verificables, optimizando conjuntamente el modelo base y el enrutador bajo el mismo principio de razón de verosimilitud que el RLVR de tokens discretos. Los resultados experimentales en tareas sintéticas de planificación jerárquica demuestran que los estados ocultos post-candidato proporcionan evidencia útil para el enrutamiento. Además, las pruebas en razonamiento matemático muestran que LBR mejora tanto las métricas Pass@1 como Pass@32 en comparación con el pensamiento en cadena discreto y otras líneas base.