O lançamento llama.cpp b9864 introduz uma alteração no tratamento de Server-Sent Events (SSE) do servidor, permitindo que o intervalo de ping seja configurado por solicitação. Esta atualização garante que operações lentas de prefill não interrompam conexões saudáveis, enviando ping para streams silenciosos a cada 1 segundo e encerrando-as apenas após 3 segundos.

  • O padrão global para sse_ping_interval retorna para 30, mantendo o comportamento do cliente da API enquanto a WebUI envia sse_ping_interval: 1 no corpo da solicitação.
  • O campo agora é um field_num tipado com limites rígidos (-1, INT32_MAX) vinculado a task_params, fornecendo validação gratuita de tipo e intervalo.
  • As compilações para macOS incluem Apple Silicon (arm64), Intel (x64) e iOS XCFramework, com KleidiAI desabilitado.
  • Binários para Linux estão disponíveis para Ubuntu x64 e arm64 (CPU, Vulkan, ROCm 7.2, OpenVINO, SYCL FP32/FP16).
  • Windows suporta CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL e HIP.
  • Compilações para Android arm64 (CPU) e openEuler x86/aarch64 (ACL Graph) também são fornecidas.

Esta atualização ajuda os usuários ao evitar quedas de conexão durante fases lentas de prefill, permitindo que a WebUI declare suas necessidades específicas de cadência de encerramento por visibilidade.