LOTUS 通过循环 Transformer 桥接潜在与显式推理

研究人员推出了 LOTUS，这是一种使用循环填充 Transformer 在隐藏状态中执行多步推理的方法，有效弥合了 3B 参数规模下潜在链式思维（latent CoT）与显式链式思维之间的性能差距。该模型在 R 次迭代中并行处理 K 个潜在块，并在黄金 CoT 步骤 token 上使用交叉熵损失。

LOTUS 是首个在 3B 规模下达到显式 CoT 性能的潜在 CoT 方法。
与逐 token 生成相比，它将思考阶段的延迟降低了 2.5 倍至 6.9 倍。
通过基础 LM 头投影循环后的潜在向量，可恢复黄金推理步骤并揭示其他有效的中间步骤。
消融实验证实，循环主干和针对黄金 CoT token 的并行监督对该性能至关重要。

该方法表明，潜在空间可以是可解释且与 CoT 对齐的，为复杂推理任务提供了一种比显式 token 生成更高效的替代方案。