La version b9767 de llama.cpp améliore l'inférence MTP en utilisant des chemins mat-vec pour les petits lots et inclut un support GPU mis à jour. La version fournit des binaires pour macOS, Linux, Android, Windows et openEuler sur plusieurs architectures et API incluant Vulkan, CUDA, OpenVINO et SYCL.