A versão b9673 do llama.cpp introduz alocações de sistema USM opcionais para buffers de GPU ≥1GB, permitindo overcommit de VRAM quando o suporte do dispositivo estiver disponível. O recurso requer a variável de ambiente GGML_SYCL_USM_SYSTEM e está desativado por padrão, caindo para alocações regulares se não for suportado.
llama.cpp lança b9673 com alocações de sistema USM e binários multiplataforma
Traduzido do English → Português (BR)