Проект llama.cpp выпустил версию b9862, включающую оптимизацию производительности для операции gated_delta_net и предоставляющую предварительно собранные бинарные файлы для macOS, Linux, Windows, Android и openEuler.
- Устраняет избыточные копии CUDA после gated_delta_net путем обнаружения паттерна gated_delta_net -> view -> cpy.
- Позволяет ядру CUDA GDN записывать снимки состояния непосредственно в рекуррентный кэш, пропуская промежуточные записи хвостовых данных.
- Отключает поддержку KleidiAI для macOS Apple Silicon в этом выпуске.
- Предоставляет бинарные файлы для Ubuntu x64/arm64/s390x с бэкендами CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL.
- Включает сборки Windows для CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL и HIP.
Это обновление повышает эффективность вывода на поддерживаемых архитектурах GPU, сохраняя широкую совместимость с различными операционными системами и аппаратными ускорителями.