Выпуск llama.cpp b9859 вводит возможность загрузки предварительно скомпилированных бинарных ядер из библиотек для OpenCL, специально ориентированных на GPU Adreno. Это обновление также предоставляет бинарные файлы для macOS, Linux, Windows, Android и openEuler для CPU, GPU и различных ускорителей.

  • Позволяет загружать библиотеки бинарных ядер через ggml-backend-dl для разрешения циклических зависимостей.
  • Загружает конкретные ядра, такие как gemm_moe_mxfp4_f32_ns, q8_0, q4_0, q4_1 и q4_k moe gemm из библиотеки ядер.
  • Всегда объявляет get_adreno_bin_kernel_func_t для поддержки Adreno в OpenCL.
  • Поддержка macOS Apple Silicon с KleidiAI отключена в этом выпуске.

Это улучшение повышает производительность OpenCL за счет включения предварительно скомпилированных бинарных ядер, сохраняя совместимость с широким спектром аппаратных платформ.