Programador de datos holístico para el preentrenamiento de LLM mediante aprendizaje por refuerzo multiobjetivo

Los investigadores presentan el Programador de datos holístico (HDS), un nuevo marco de mezcla de datos en línea que aborda las limitaciones de los métodos existentes considerando la composición dinámica de datos desde múltiples dimensiones. HDS formula la programación de datos como un problema de aprendizaje por refuerzo utilizando el algoritmo Soft Actor-Critic y una función de recompensa multiobjetivo.

HDS utiliza una función de recompensa holística y multiobjetivo que integra la calidad impulsada por los datos, la influencia interdominio impulsada por la pérdida y las normas de peso impulsadas por el modelo.
El marco emplea el algoritmo Soft Actor-Critic (SAC) para garantizar estabilidad y eficiencia de muestras en la exploración de espacios de política de alta dimensión.
En la prueba The Pile, HDS alcanza la perplejidad de validación final del siguiente mejor método con un 44% menos de iteraciones de entrenamiento.
El modelo demuestra una mejora del 7.2% en la tarea MMLU 0-shot junto con ganancias consistentes en otras pruebas.

Este enfoque mejora tanto la eficiencia del entrenamiento como la capacidad final del modelo optimizando las mezclas de datos a través de un sistema de recompensa integral y multiperspectiva, en lugar de una única perspectiva de optimización.

Benchmarks