Versi llama.cpp b9673 memperkenalkan alokasi sistem USM opsional untuk buffer GPU ≥1GB, memungkinkan overcommit VRAM ketika dukungan perangkat tersedia. Fitur ini memerlukan variabel lingkungan GGML_SYCL_USM_SYSTEM dan dinonaktifkan secara default, kembali ke alokasi reguler jika tidak didukung.