Выпуск llama.cpp b9859 вводит возможность загрузки предварительно скомпилированных бинарных ядер из библиотек для OpenCL, специально ориентированных на GPU Adreno. Это обновление также предоставляет бинарные файлы для macOS, Linux, Windows, Android и openEuler для CPU, GPU и различных ускорителей.
- Позволяет загружать библиотеки бинарных ядер через ggml-backend-dl для разрешения циклических зависимостей.
- Загружает конкретные ядра, такие как gemm_moe_mxfp4_f32_ns, q8_0, q4_0, q4_1 и q4_k moe gemm из библиотеки ядер.
- Всегда объявляет get_adreno_bin_kernel_func_t для поддержки Adreno в OpenCL.
- Поддержка macOS Apple Silicon с KleidiAI отключена в этом выпуске.
Это улучшение повышает производительность OpenCL за счет включения предварительно скомпилированных бинарных ядер, сохраняя совместимость с широким спектром аппаратных платформ.