llama.cpp 中的一个拉取请求(pull request)解决了一个问题,即输入裁剪的实现不正确,此前阻碍了 Step 3.7 Flash 的性能。

  • 该修复针对导致推理能力缓慢的输入处理中的特定错误。
  • 此更改旨在使模型可用于需要长形式推理的任务。

对于因性能不佳而避免使用 Step 3.7 Flash 的用户来说,此次更新意义重大,尤其是与 Step 3.5 Flash 等早期版本相比。