llama.cpp publie b9673 avec des allocations système USM et des binaires multiplateformes
La version b9673 de llama.cpp introduit des allocations système USM optionnelles pour les tampons GPU ≥1 Go, permettant le sur-engagement de la VRAM lorsque la prise en charge par l'appareil est disponible. Cette fonctionnalité nécessite la variable d'environnement GGML_SYCL_USM_SYSTEM et est désactivée par défaut, avec un retour aux allocations régulières si non pris en charge.