CAT: Confidence-Adaptive Thinking은 대형 추론 모델에서 정확도와 지연 시간을 균형 있게 조정합니다

저자들은 Confidence-Adaptive Thinking (CAT)을 제안합니다. 이는 모델의 내재적 자기 확신 신호를 사용하여 문제 난이도에 기반하여 추론 길이를 자율적으로 조절하는 프레임워크입니다. 이 접근 방식은 상당한 토큰 오버헤드와 추론 효율성 감소를 초래하는 대형 추론 모델의 과잉 추론 문제를 해결합니다.

CAT은 확신 있는 응답은 압축하고 불확실한 응답에 대해서는 숙고하도록 하기 위해 선호도 최적화 과정에 자기 확신을 통합합니다.
균일한 길이 감소나 coarse-grained 난이도 추정에 의존하지 않음으로써 어려운 문제에서의 성능 저하를 방지합니다.
실험 결과, CAT은 여러 기본 모델에서 여러 벤치마크에 걸쳐 추론 정확도 측면에서 최신 기반 모델을 일관되게 상회하는 것으로 나타났습니다.

이 연구는 실용적인 산업 시나리오에서 정확도와 지연 시간을 균형 있게 조정하기 위한 잠재적으로 견고한 해결책을 제시합니다.