La Programación Adaptativa de Datos Mejora el Aprendizaje por Refuerzo en LLM

La Programación Adaptativa de Datos (ADS) introduce un marco de programación de datos a dos niveles que reemplaza el muestreo uniforme con una distribución adaptativa sobre clústeres semánticos y selección de muestras en la frontera de la política. Los resultados experimentales muestran que ADS mejora la precisión promedio en un 5,2 % respecto a GRPO en tres LLM y siete benchmarks de razonamiento, demostrando su efectividad como estrategia general para el post-entrenamiento RL de LLM.