CHERRY：具有循环表示产出的压缩分层专家

本文介绍了 CHERRY-1.8B，这是一个韩国基础模型，集成了三种用于训练计算高效语言模型的技术：选择性监督、带有循环恢复的深度压缩以及压缩专家的融合。

选择性真实令牌训练（SGT）将监督集中在约 15% 的输出令牌上，在通过梯度耦合改善非监督令牌的同时，使每个监督令牌的效率提高 4.5 倍。深度压缩将拥有 48 层和 1B 参数的 Transformer 减少到 6 层（227M 参数），并通过学习的循环展开恢复，达到 2.934 的损失，与拥有 566M 的密集模型相当。将压缩模型组装为具有多令牌预测的高效专家混合（MoEE）进一步提升了性能，实现了 2.789 的损失。

作者们在 CHERRY-1.8B 上验证了这些技术，指出每个可训练参数都源自他们自己的训练运行，并明确将证据的范围限定为一个模型家族和韩国数据。