La versión b9767 de llama.cpp mejora la inferencia MTP utilizando rutas mat-vec para lotes pequeños e incluye soporte actualizado para GPU. La versión proporciona binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y APIs, incluyendo Vulkan, CUDA, OpenVINO y SYCL.