llama.cpp b9864 リリースでは、サーバーの Server-Sent Events (SSE) 処理に変更が加えられ、ping インターバルをリクエストごとに構成できるようになりました。この更新により、低速な prefill 操作でも健全な接続が切断されず、サイレントストリームには毎秒 ping が送信され、3 秒後にのみ切断されます。
- sse_ping_interval のグローバルデフォルトは 30 に戻り、API クライアントの動作を維持しつつ、WebUI はリクエストボディに sse_ping_interval: 1 を送信します。
- このフィールドは now typed field_num となり、task_params にバインドされたハード制限 (-1, INT32_MAX) が設けられ、型と範囲の検証が自動的に行われます。
- macOS ビルドには Apple Silicon (arm64)、Intel (x64)、iOS XCFramework が含まれ、KleidiAI は無効化されています。
- Linux バイナリは Ubuntu x64 と arm64 (CPU, Vulkan, ROCm 7.2, OpenVINO, SYCL FP32/FP16) で利用可能です。
- Windows では CPU、OpenCL Adreno、CUDA 12/13、Vulkan、OpenVINO、SYCL、HIP がサポートされています。
- Android arm64 (CPU) と openEuler x86/aarch64 (ACL Graph) のビルドも提供されます。
この更新により、低速な prefill フェーズ中の接続切断を防ぎつつ、WebUI が特定の可視性キック間隔を宣言できるようになります。