Los autores argumentan que el Aprendizaje por Refuerzo convencional con Recompensas Verificables (RLVR) a menudo falla en expandir la capacidad de razonamiento de los modelos de lenguaje grandes, simplemente reasignando probabilidades entre trayectorias existentes. Para abordar esta limitación, introducen un enfoque de RL Curricular Consciente de Límites diseñado para superar el límite empírico de capacidad de razonamiento del modelo base. El método primero utiliza muestreo pass@k para identificar los límites de razonamiento actuales y luego aplica guía docente dirigida a ejemplos cerca o más allá de ese límite. Posteriormente, se utiliza aprendizaje por refuerzo para consolidar estos nuevos patrones de razonamiento introducidos en los modelos base Qwen, Llama y DeepSeek. Los resultados experimentales demuestran mejoras significativas tanto en las puntuaciones pass@1 como en las puntuaciones pass@256, que sirven como un proxy del límite de capacidad de razonamiento. Específicamente, el promedio de pass@256 mejoró en 9.8 puntos porcentuales sobre los modelos base y en 10.3 puntos porcentuales sobre RLVR Vanilla. Estos hallazgos sugieren que esta estrategia basada en currículo ofrece una ruta escalable para mejorar continuamente las capacidades de razonamiento de los LLM.
El RL Curricular Consciente de Límites Expande la Capacidad de Razonamiento de los LLM Más Allá de los Límites del Modelo Base
Traducido del English → Español