Proyek llama.cpp merilis versi b9873, yang menangani kegagalan asersi kritis yang terjadi selama operasi grafik ketika buffer rotasi kunci/nilai tidak dialokasikan.
- Memperbaiki abort yang disebabkan oleh pemanggilan ggml_backend_buffer_is_host() pada buffer NULL ketika pointer tensor tidak null tetapi buffer belum dialokasikan.
- Menambahkan pemeriksaan untuk memastikan alokasi buffer sebelum memproses input k_rot/v_rot, konsisten dengan pemeriksaan yang ada untuk input kq_mask.
- Menyelesaikan masalah #25191 terkait jalur injeksi KV dari decoding spekulatif DFlash.
Perubahan ini mencegah crash pada alur kerja yang menyimpan K/V tanpa perhatian (attending), seperti jalur decoding spekulatif tertentu, memastikan eksekusi yang stabil.