В статье представлен CHERRY-1.8B, корейская базовая модель, которая объединяет три техники для обучения вычислительно эффективных языковых моделей: селективный надзор, глубинное сжатие с рекуррентным восстановлением и слияние сжатых экспертов.
Обучение на основе отборочных истинных токенов (SGT) концентрирует надзор примерно на 15% выходных токенов, обеспечивая эффективность на каждый обучаемый токен в 4.5 раза, одновременно улучшая ненадзорные токены через градиентную связь. Глубинное сжатие уменьшает трансформер с 48 слоями и 1B параметров до 6 слоев (227M параметров), которые восстанавливаются посредством обучаемого рекуррентного развертывания для достижения потери 2.934, сопоставимой с плотной моделью на 566M параметров. Сборка сжатых моделей в виде Смешивания Эффективных Экспертов (MoEE) с много-токенным предсказанием дополнительно улучшает производительность, достигая потери 2.789.
Авторы валидируют эти техники на CHERRY-1.8B, отмечая, что каждый обучаемый параметр происходит из их собственных обучающих прогонов и явно определяя объем доказательств как ограниченный одним семейством моделей и корейскими данными.