llama.cpp b9864 版本引入了对服务器服务器发送事件 (SSE) 处理的更改,允许按每个请求配置 ping 间隔。此更新确保通过每 1 秒向静默流发送 ping 并在 3 秒后才将其踢出,从而防止缓慢的预填充操作断开健康连接。
- sse_ping_interval 的全局默认值恢复为 30,在 WebUI 在请求体中发送 sse_ping_interval: 1 的同时保持 API 客户端行为。
- 该字段现在是一个带有硬限制 (-1, INT32_MAX) 的 typed field_num,绑定到 task_params,提供免费的类型和范围验证。
- macOS 构建包括 Apple Silicon (arm64)、Intel (x64) 和 iOS XCFramework,并禁用了 KleidiAI。
- Linux 二进制文件适用于 Ubuntu x64 和 arm64(CPU、Vulkan、ROCm 7.2、OpenVINO、SYCL FP32/FP16)。
- Windows 支持 CPU、OpenCL Adreno、CUDA 12/13、Vulkan、OpenVINO、SYCL 和 HIP。
- 还提供了 Android arm64 (CPU) 和 openEuler x86/aarch64 (ACL Graph) 构建。
此更新通过防止在缓慢的预填充阶段断开连接,并允许 WebUI 声明其特定的可见性踢出周期需求,从而帮助用户。