CAT: Уверенность-адаптивное мышление балансирует точность и задержку в больших моделях рассуждений

Авторы предлагают Confidence-Adaptive Thinking (CAT), фреймворк, который использует внутренние сигналы собственной уверенности модели для автономной модуляции длин рассуждений в зависимости от сложности задачи. Этот подход решает проблему чрезмерного размышления в больших моделях рассуждений, которая вызывает значительный избыток токенов и снижает эффективность вывода.

CAT интегрирует собственную уверенность в процесс оптимизации предпочтений для сжатия уверенных ответов при одновременном обдумывании неуверенных.
Метод избегает деградации производительности на сложных задачах за счет отказа от равномерного сокращения длины или опоры на грубую оценку сложности.
Экспериментальные результаты показывают, что CAT последовательно превосходит передовые базовые линии по точности рассуждений на нескольких бенчмарках для различных базовых моделей.

Работа предлагает потенциально надежное решение для балансировки точности и задержки в практических промышленных сценариях.