CAT: Confidence-Adaptive Thinking menyeimbangkan akurasi dan latensi dalam Model Penalaran Besar

Para penulis mengusulkan Confidence-Adaptive Thinking (CAT), sebuah kerangka kerja yang menggunakan sinyal kepastian diri intrinsik model untuk secara otomatis memodulasi panjang penalaran berdasarkan kesulitan masalah. Pendekatan ini mengatasi masalah overthinking pada Model Penalaran Besar, yang menyebabkan overhead token yang signifikan dan penurunan efisiensi inferensi.

CAT mengintegrasikan kepastian diri ke dalam proses optimasi preferensi untuk mengompresi respons yang yakin sambil mempertimbangkan respons yang tidak pasti.
Metode ini menghindari degradasi kinerja pada masalah sulit dengan tidak menerapkan pengurangan panjang seragam atau mengandalkan estimasi kesulitan berbutir kasar.
Hasil eksperimen menunjukkan bahwa CAT secara konsisten mengungguli baseline state-of-the-art dalam akurasi penalaran di berbagai benchmark pada model dasar yang berbeda.

Karya ini menawarkan solusi yang berpotensi kuat untuk menyeimbangkan akurasi dan latensi dalam skenario industri praktis.