llama.cpp release b9767 улучшает инференс MTP с использованием путей мат-вектора для малых батчей и включает обновлённую поддержку GPU. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, CUDA, OpenVINO и SYCL.