PR llama.cpp memperbaiki pemangkasan input penalaran panjang untuk Step 3.7 Flash

Sebuah pull request di llama.cpp mengatasi masalah di mana pemangkasan input diimplementasikan secara salah, yang sebelumnya menghambat kinerja Step 3.7 Flash.

Perbaikan ini menargetkan bug spesifik dalam penanganan input yang menyebabkan kemampuan penalaran yang lambat.
Perubahan ini bertujuan untuk membuat model dapat digunakan untuk tugas-tugas yang memerlukan penalaran bentuk panjang.

Pembaruan ini signifikan bagi pengguna yang telah menghindari Step 3.7 Flash karena kinerjanya yang buruk dibandingkan dengan versi sebelumnya seperti Step 3.5 Flash.