研究人员推出了 LOTUS,这是一种使用循环填充 Transformer 在隐藏状态中执行多步推理的方法,有效弥合了 3B 参数规模下潜在链式思维(latent CoT)与显式链式思维之间的性能差距。该模型在 R 次迭代中并行处理 K 个潜在块,并在黄金 CoT 步骤 token 上使用交叉熵损失。
- LOTUS 是首个在 3B 规模下达到显式 CoT 性能的潜在 CoT 方法。
- 与逐 token 生成相比,它将思考阶段的延迟降低了 2.5 倍至 6.9 倍。
- 通过基础 LM 头投影循环后的潜在向量,可恢复黄金推理步骤并揭示其他有效的中间步骤。
- 消融实验证实,循环主干和针对黄金 CoT token 的并行监督对该性能至关重要。
该方法表明,潜在空间可以是可解释且与 CoT 对齐的,为复杂推理任务提供了一种比显式 token 生成更高效的替代方案。