研究人员提出了DiscoLoop,这是一种循环Transformer架构,同时携带离散嵌入通道和连续隐藏状态通道,以在单次前向传递中改善两跳推理。该方法通过在不进行额外训练的情况下将隐藏状态与桥接标记嵌入重新对齐,解决了标准循环Transformer中发现的表示瓶颈问题。
- 标准的非递归Transformer存在深度局部存储问题,即在前几层中学到的事实在第二跳检索时不可用。
- 之前的循环Transformer泛化效果不佳,因为尽管实体可正确解码,但隐藏状态与桥接标记嵌入的对齐仍然很差。
- DiscoLoop利用混合通道设计,在符号和合成语言任务上以显著更少的训练步骤实现了近乎完美的准确率。
- 在实际预训练中,该架构达到了比循环Transformer基线更低的训练损失和更强的基准性能。
作者认为这很重要,因为混合通道设计可以转移到实际的建模中,使模型能够更有效地内化多步推理。