CAT: El pensamiento adaptativo a la confianza equilibra precisión y latencia en Modelos de Razonamiento Grandes

Los autores proponen Confidence-Adaptive Thinking (CAT), un marco que utiliza las señales intrínsecas de autoconfianza del modelo para modular autónomamente las longitudes del razonamiento según la dificultad del problema. Este enfoque aborda el problema del sobre-pensamiento en los Modelos de Razonamiento Grandes, lo cual causa una sobrecarga significativa de tokens y reduce la eficiencia de inferencia.

CAT incorpora la autoconfianza en el proceso de optimización de preferencias para comprimir las respuestas seguras mientras se deliberan las inciertas.
El método evita la degradación del rendimiento en problemas difíciles al no aplicar una reducción uniforme de longitud ni depender de una estimación de dificultad de grano grueso.
Los resultados experimentales muestran que CAT supera consistentemente a las líneas base de última generación en precisión de razonamiento en múltiples benchmarks sobre diferentes modelos base.

El trabajo ofrece una solución potencialmente robusta para equilibrar la precisión y la latencia en escenarios industriales prácticos.