arxiv arXiv cs.CL · hace 2 h · fuente: hace 4 d · research

Programador de datos holístico para el preentrenamiento de LLM mediante aprendizaje por refuerzo multiobjetivo

Traducido del English → Español

HDS introduce un marco de aprendizaje por refuerzo multiobjetivo para la mezcla en línea de datos durante el preentrenamiento de LLM. Logra un 44% menos de iteraciones de entrenamiento en el benchmark The Pile y mejora el rendimiento MMLU 0-shot en un 7,2%, con ganancias consistentes en otros benchmarks.

Importancia 2/3 arXiv cs.CL Evaluation & benchmarks Research paper

Leer original