HDS introduce un marco de aprendizaje por refuerzo multiobjetivo para la mezcla en línea de datos durante el preentrenamiento de LLM. Logra un 44% menos de iteraciones de entrenamiento en el benchmark The Pile y mejora el rendimiento MMLU 0-shot en un 7,2%, con ganancias consistentes en otros benchmarks.
Programador de datos holístico para el preentrenamiento de LLM mediante aprendizaje por refuerzo multiobjetivo
Traducido del English → Español