github llama.cpp · 2 小时前 · inference

llama.cpp b9873 修复了推测解码中 K/V 旋转崩溃问题

译自 English → 中文

llama.cpp 项目发布了版本 b9873，解决了在图操作中因键/值旋转缓冲区未分配而导致的严重断言失败问题。

修复了在张量指针非空但缓冲区未分配时调用 ggml_backend_buffer_is_host() 导致的中止问题。
在处理 k_rot/v_rot 输入之前增加了对缓冲区分配的检查，这与对 kq_mask 输入的现有检查保持一致。
解决了与 DFlash 推测解码的 KV 注入传递相关的问题 #25191。

此更改防止了在不进行注意力机制的情况下存储 K/V 的工作流程（如特定的推测解码传递）中发生崩溃，确保执行稳定。

重要性 1/3 可信度 1/3 llama.cpp Hugging Face Inference efficiency