CAT: Confidence-Adaptive Thinkingは推論モデルの精度とレイテンシをバランスよく調整する

著者らは、Confidence-Adaptive Thinking (CAT) を提案する。これは、モデルの内在的な自己確信信号を用いて、問題の難易度に基づき推論長を自律的に調整するフレームワークである。このアプローチは、大きなトークンオーバーヘッドと推論効率の低下を引き起こす大型推論モデルにおける「過剰推論」の問題に対処する。

CATは、確信のある応答を圧縮し、不確実な応答については熟考させるため、好みの最適化プロセスに自己確信を組み込む。
均一な長さの削減や粗粒度の難易度推定に頼らないことで、困難な問題における性能劣化を防ぐ。
実験結果により、CATは複数のベースモデル上で複数のベンチマークにおいて推論精度で最先端のベースラインを一貫して上回ることが示された。

この研究は、実用的な産業シナリオにおいて精度とレイテンシをバランスよく調整するための堅牢な解決策を提供する可能性がある。