La version b9673 de llama.cpp introduit des allocations système USM optionnelles pour les tampons GPU ≥1 Go, permettant le sur-engagement de la VRAM lorsque la prise en charge par l'appareil est disponible. Cette fonctionnalité nécessite la variable d'environnement GGML_SYCL_USM_SYSTEM et est désactivée par défaut, avec un retour aux allocations régulières si non pris en charge.
llama.cpp publie b9673 avec des allocations système USM et des binaires multiplateformes
Traduit de English → Français