Целостный планировщик данных для предобучения LLM с помощью многокритериального обучения с подкреплением

Исследователи представляют Целостный планировщик данных (HDS), новую онлайн-рамку смешивания данных, которая устраняет ограничения существующих методов за счёт учёта динамического состава данных по нескольким измерениям. HDS формулирует планирование данных как задачу обучения с подкреплением, используя алгоритм Soft Actor-Critic и многокритериальную функцию вознаграждения.

HDS использует многокритериальную целостную функцию вознаграждения, объединяющую качество на основе данных, междоменное влияние на основе потерь и весовые нормы на основе модели.
Рамка применяет алгоритм Soft Actor-Critic (SAC) для обеспечения стабильности и эффективности выборки при исследовании высокоразмерных пространств политик.
На бенчмарке The Pile HDS достигает финальной валидационной перплексии следующего по качеству метода, используя на 44% меньше обучающих итераций.
Модель демонстрирует улучшение на 7,2% по задаче MMLU 0-shot, а также последовательные улучшения на других бенчмарках.

Этот подход повышает как эффективность обучения, так и итоговые возможности модели за счёт оптимизации смесей данных через комплексную многоперспективную систему вознаграждений, а не через единственную перспективу оптимизации.

Бенчмарки