HDS introduce un marco de aprendizaje por refuerzo multiobjetivo para la mezcla en línea de datos durante el preentrenamiento de LLM. Logra un 44% menos de iteraciones de entrenamiento en el benchmark The Pile y mejora el rendimiento MMLU 0-shot en un 7,2%, con ganancias consistentes en otros benchmarks.