Proyek llama.cpp merilis versi b9873, yang menangani kegagalan asersi kritis yang terjadi selama operasi grafik ketika buffer rotasi kunci/nilai tidak dialokasikan.

  • Memperbaiki abort yang disebabkan oleh pemanggilan ggml_backend_buffer_is_host() pada buffer NULL ketika pointer tensor tidak null tetapi buffer belum dialokasikan.
  • Menambahkan pemeriksaan untuk memastikan alokasi buffer sebelum memproses input k_rot/v_rot, konsisten dengan pemeriksaan yang ada untuk input kq_mask.
  • Menyelesaikan masalah #25191 terkait jalur injeksi KV dari decoding spekulatif DFlash.

Perubahan ini mencegah crash pada alur kerja yang menyimpan K/V tanpa perhatian (attending), seperti jalur decoding spekulatif tertentu, memastikan eksekusi yang stabil.