Выпуск llama.cpp b9862: оптимизация CUDA и мультиплатформенные бинарники

Проект llama.cpp выпустил версию b9862, включающую оптимизацию производительности для операции gated_delta_net и предоставляющую предварительно собранные бинарные файлы для macOS, Linux, Windows, Android и openEuler.

Устраняет избыточные копии CUDA после gated_delta_net путем обнаружения паттерна gated_delta_net -> view -> cpy.
Позволяет ядру CUDA GDN записывать снимки состояния непосредственно в рекуррентный кэш, пропуская промежуточные записи хвостовых данных.
Отключает поддержку KleidiAI для macOS Apple Silicon в этом выпуске.
Предоставляет бинарные файлы для Ubuntu x64/arm64/s390x с бэкендами CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL.
Включает сборки Windows для CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL и HIP.

Это обновление повышает эффективность вывода на поддерживаемых архитектурах GPU, сохраняя широкую совместимость с различными операционными системами и аппаратными ускорителями.