media r/LocalLLaMA · 1 小时前 · 来源： 1 天前 · open_models

llama.cpp PR 修复 Step 3.7 Flash 长推理输入裁剪问题

译自 English → 中文

llama.cpp 中的一个拉取请求（pull request）解决了一个问题，即输入裁剪的实现不正确，此前阻碍了 Step 3.7 Flash 的性能。

对于因性能不佳而避免使用 Step 3.7 Flash 的用户来说，此次更新意义重大，尤其是与 Step 3.5 Flash 等早期版本相比。

重要性 1/3 r/LocalLLaMA DeepSeek Inference efficiency Reasoning models