Os autores propõem o Confidence-Adaptive Thinking (CAT), um framework que utiliza sinais intrínsecos de autoconfiança do modelo para modular autonomamente os comprimentos do raciocínio com base na dificuldade do problema. Esta abordagem aborda a questão do excesso de raciocínio em Modelos de Raciocínio Grandes, o que causa uma sobrecarga significativa de tokens e reduz a eficiência da inferência.
- O CAT incorpora a autoconfiança no processo de otimização de preferências para comprimir respostas confiantes enquanto se deliberam as incertas.
- O método evita a degradação de desempenho em problemas difíceis ao não aplicar uma redução uniforme de comprimento nem depender de uma estimativa de dificuldade de granulação grossa.
- Os resultados experimentais mostram que o CAT supera consistentemente as linhas de base de última geração na precisão do raciocínio em múltiplos benchmarks em diferentes modelos base.
O trabalho oferece uma solução potencialmente robusta para equilibrar precisão e latência em cenários industriais práticos.