Programador de datos holístico para el preentrenamiento de LLM mediante aprendizaje por refuerzo multiobjetivo
Los investigadores presentan el Programador de datos holístico (HDS), un nuevo marco de mezcla de datos en línea que aborda las limitaciones de los métodos existentes considerando la composición dinámica de datos desde múltiples dimensiones. HDS formula la programación de datos como un problema de aprendizaje por refuerzo utilizando el algoritmo Soft Actor-Critic y una función de recompensa multiobjetivo.