arxiv arXiv cs.CL · 1 小时前 · 来源： 4 天前 · research

CAT：置信度自适应思考在大推理模型中平衡精度与延迟

译自 English → 中文

作者提出了 Confidence-Adaptive Thinking (CAT)，这是一种利用模型内在自我确定性信号来根据问题难度自主调节推理长度的框架。这种方法解决了大推理模型中的过度思考问题，后者会导致显著的 token 开销并降低推理效率。

CAT 将自我确定性纳入偏好优化过程，以压缩自信的响应，同时 deliberating（深思熟虑）不确定的响应。
该方法通过不应用统一的长度缩减或不依赖粗粒度的难度估计，避免在困难问题上出现性能下降。
实验结果表明，CAT 在不同基础模型的多个基准测试中，在推理准确性方面一致优于最先进的基线。

这项工作为在实际工业场景中平衡精度和延迟提供了一种潜在的稳健解决方案。

重要性 1/3 arXiv cs.CL Inference efficiency Research paper