本文介绍了 CHERRY-1.8B,这是一个韩国基础模型,集成了三种用于训练计算高效语言模型的技术:选择性监督、带有循环恢复的深度压缩以及压缩专家的融合。
选择性真实令牌训练(SGT)将监督集中在约 15% 的输出令牌上,在通过梯度耦合改善非监督令牌的同时,使每个监督令牌的效率提高 4.5 倍。深度压缩将拥有 48 层和 1B 参数的 Transformer 减少到 6 层(227M 参数),并通过学习的循环展开恢复,达到 2.934 的损失,与拥有 566M 的密集模型相当。将压缩模型组装为具有多令牌预测的高效专家混合(MoEE)进一步提升了性能,实现了 2.789 的损失。
作者们在 CHERRY-1.8B 上验证了这些技术,指出每个可训练参数都源自他们自己的训练运行,并明确将证据的范围限定为一个模型家族和韩国数据。