llama.cpp 项目发布了版本 b9873,解决了在图操作中因键/值旋转缓冲区未分配而导致的严重断言失败问题。
- 修复了在张量指针非空但缓冲区未分配时调用 ggml_backend_buffer_is_host() 导致的中止问题。
- 在处理 k_rot/v_rot 输入之前增加了对缓冲区分配的检查,这与对 kq_mask 输入的现有检查保持一致。
- 解决了与 DFlash 推测解码的 KV 注入传递相关的问题 #25191。
此更改防止了在不进行注意力机制的情况下存储 K/V 的工作流程(如特定的推测解码传递)中发生崩溃,确保执行稳定。