github llama.cpp · há 14 d · inference

llama.cpp lança b9673 com alocações de sistema USM e binários multiplataforma

Traduzido do English → Português (BR)

A versão b9673 do llama.cpp introduz alocações de sistema USM opcionais para buffers de GPU ≥1GB, permitindo overcommit de VRAM quando o suporte do dispositivo estiver disponível. O recurso requer a variável de ambiente GGML_SYCL_USM_SYSTEM e está desativado por padrão, caindo para alocações regulares se não for suportado.

Importância 0/3 Confiança 2/3 llama.cpp

Ler original