研究人员提出了状态预测分离假设,认为将下一个token的预测与状态存储解耦可以获得更好的语言建模性能。他们设计了一种使用两个计算流来分离这些功能的Transformer变体,并在不同规模上进行了预训练实验。
- 与标准Transformer相比,所提出的架构持续提供更高的数据和计算效率。
- 它在预训练期间改善了验证损失。
- 在下游任务中,它平均比标准Transformer高出2--3个百分点。
- 实证分析排除了混淆因素,并证明了该设计所涉及的梯度存在根本性差异。
作者认为这具有重要意义,因为它提供了一种通过计算角色的架构分离来增强模型性能的方法。