状态预测分离假设提高了Transformer的效率

研究人员提出了状态预测分离假设，认为将下一个token的预测与状态存储解耦可以获得更好的语言建模性能。他们设计了一种使用两个计算流来分离这些功能的Transformer变体，并在不同规模上进行了预训练实验。

作者认为这具有重要意义，因为它提供了一种通过计算角色的架构分离来增强模型性能的方法。