CAT : La Pensée Adaptative à la Confiance équilibre précision et latence dans les Grands Modèles de Raisonnement

Les auteurs proposent Confidence-Adaptive Thinking (CAT), un cadre qui utilise les signaux d'auto-certitude intrinsèques d'un modèle pour moduler automatiquement la longueur du raisonnement en fonction de la difficulté du problème. Cette approche traite le problème de la sur-réflexion dans les Grands Modèles de Raisonnement, qui entraîne une surcharge significative de tokens et une réduction de l'efficacité de l'inférence.

CAT intègre l'auto-certitude dans le processus d'optimisation des préférences pour compresser les réponses certaines tout en délibérant sur celles qui sont incertaines.
La méthode évite la dégradation des performances sur les problèmes difficiles en n'appliquant pas de réduction uniforme de la longueur et en ne s'appuyant pas sur une estimation de la difficulté à grain grossier.
Les résultats expérimentaux montrent que CAT surpasse systématiquement les références de pointe en matière de précision du raisonnement sur plusieurs benchmarks pour différents modèles de base.

Ce travail offre une solution potentiellement robuste pour équilibrer précision et latence dans des scénarios industriels pratiques.