llama.cpp version b9704 теперь возвращает HTTP 400 для недопустимой грамматики вместо тихого игнорирования ограничений. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на разных архитектурах и аппаратных ускорителях, с поддержкой Vulkan, ROCm, OpenVINO, SYCL и CUDA.