Выпуск llama.cpp b9851 исправляет усечение целых чисел в CUDA и предоставляет бинарные файлы

Проект llama.cpp выпустил версию b9851, которая включает исправление для CUDA, предотвращающее ошибки усечения целых чисел и переполнения в ядре flash_attn_mask_to_KV_max. Это обновление решает проблемы, связанные с шагами маски KQ внутри указанного ядра.

Доступны бинарные файлы для macOS Apple Silicon (arm64), при этом поддержка KleidiAI отключена.
Сборки для Linux охватывают Ubuntu x64 и arm64 для CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL FP32/FP16.
Предоставлены бинарные файлы Android arm64 (CPU) для мобильных устройств.
Релизы для Windows включают варианты для CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL и HIP.
Указаны сборки openEuler для архитектур x86 и aarch64, при этом некоторые конфигурации отключены.
В артефакты выпуска также включен автономный бинарный файл UI.

Этот выпуск обеспечивает стабильность для пользователей CUDA за счет исправления ошибок вычислений и предоставляет комплексные предварительно собранные бинарные файлы для основных операционных систем и аппаратных ускорителей.