llama.cpp 发布 b9767,通过 mat-vec 路径优化了小批量的 MTP 推理,并更新了 GPU 支持。该版本为 macOS、Linux、Android、Windows 和 openEuler 提供了二进制文件,涵盖多种架构和 API,包括 Vulkan、CUDA、OpenVINO 和 SYCL。