Проект llama.cpp выпустил версию b9862, включающую оптимизацию производительности для операции gated_delta_net и предоставляющую предварительно собранные бинарные файлы для macOS, Linux, Windows, Android и openEuler.

  • Устраняет избыточные копии CUDA после gated_delta_net путем обнаружения паттерна gated_delta_net -> view -> cpy.
  • Позволяет ядру CUDA GDN записывать снимки состояния непосредственно в рекуррентный кэш, пропуская промежуточные записи хвостовых данных.
  • Отключает поддержку KleidiAI для macOS Apple Silicon в этом выпуске.
  • Предоставляет бинарные файлы для Ubuntu x64/arm64/s390x с бэкендами CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL.
  • Включает сборки Windows для CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL и HIP.

Это обновление повышает эффективность вывода на поддерживаемых архитектурах GPU, сохраняя широкую совместимость с различными операционными системами и аппаратными ускорителями.