CAT: Pensamento Adaptativo à Confiança equilibra precisão e latência em Modelos de Raciocínio Grandes

Os autores propõem o Confidence-Adaptive Thinking (CAT), um framework que utiliza sinais intrínsecos de autoconfiança do modelo para modular autonomamente os comprimentos do raciocínio com base na dificuldade do problema. Esta abordagem aborda a questão do excesso de raciocínio em Modelos de Raciocínio Grandes, o que causa uma sobrecarga significativa de tokens e reduz a eficiência da inferência.

O CAT incorpora a autoconfiança no processo de otimização de preferências para comprimir respostas confiantes enquanto se deliberam as incertas.
O método evita a degradação de desempenho em problemas difíceis ao não aplicar uma redução uniforme de comprimento nem depender de uma estimativa de dificuldade de granulação grossa.
Os resultados experimentais mostram que o CAT supera consistentemente as linhas de base de última geração na precisão do raciocínio em múltiplos benchmarks em diferentes modelos base.

O trabalho oferece uma solução potencialmente robusta para equilibrar precisão e latência em cenários industriais práticos.